Вы находитесь на странице: 1из 11

Revista Avances en Sistemas e Informtica

ISSN: 1657-7663
avances@unalmed.edu.co
Universidad Nacional de Colombia
Colombia

Bucheli G., Vctor A.; Gonzlez O., Fabio A.


Herramienta informtica para vigilancia tecnolgica -VIGTECHRevista Avances en Sistemas e Informtica, vol. 4, nm. 1, junio, 2007, pp. 117-126
Universidad Nacional de Colombia
Medelln, Colombia

Disponible en: http://www.redalyc.org/articulo.oa?id=133116856016

Cmo citar el artculo


Nmero completo
Ms informacin del artculo
Pgina de la revista en redalyc.org

Sistema de Informacin Cientfica


Red de Revistas Cientficas de Amrica Latina, el Caribe, Espaa y Portugal
Proyecto acadmico sin fines de lucro, desarrollado bajo la iniciativa de acceso abierto

117

Herramientainformticaparavigilancia
tecnolgicaVIGTECH
Technology Monitoring Softwaretool
VIGTECH
VctorA.BucheliG.,MSc,FabioA.GonzlezO.PhD.
UniversidadNacionaldeColombia,sedeBogotDepartamentodeIngenieradeSistemaseIndustrial
vabuchelig@unal.edu.co ,fagonzalezo@unal.edu.co
Recibidopararevisin26deMarzode2007,aceptado15deJuniode2007,versinfinal22dejuniode2007

Resumen Elar tculopr esentaunaher r amientadesoftwar e


que apoya la vigilancia teconolgica. La her r amienta per mite
encontr ar r elaciones cognitivas y sociales en un conjunto de
documentos extr aidos de una base r efer encial tal como
SCOPUS. Especficamente, la her r amienta sopor ta las
actividades de obtencin de infor macin de documentos
cientficos, extr accin de metadatos, clculo de estadsticas
descr iptivas, anlisis de r edes sociales, anlisis de r edes de
palabr as claves y visualizacin. El ar tculo pr esenta una
descr ipcin de las bases conceptuales que fundamentar on el
desar r ollo de la her r amienta, as como una descr ipcin de su
ar quitectur ay funcionalidad.
Palabras Clave Sociedad del conocimiento, vigilancia
tecnolgica,mapascientficos,apr endizajedemquinaaplicado
adocumentoscientficos,anlisisder edessociales.
AbstractThepaper pr esentsasoftwar etoolfor suppor ting
techniology monitor ing tasks. The tools allows tofind cognitive
andsocialr elationshipsinasetofdocuments,whichhavebeen
extr acted fr om a r efer ence database such as SCOPUS.
Specifically, the tool the following activities: gather ing of
infor mation fr om scientific documents, metadata extr action,
descr iptive statistics calculation, social networ k analysis,
keywor dnetwor kanlisisandvisualization.thepaper descr ibes
the conceptualbasesthatsuppor tedthedevelopmentofthethe
tool,anddescr ibesitsar chitectur eandfunctionality.
Keywor dsSocietyofknowledge,technologicalmonitor ing,
machine lear ning applied to scientific documents, social
networ ksanalysis.
I. INTRODUCCIN

Luso intensivodelconocimiento,elentornoglobalizado
y el avance en la informatizacin de lasociedadimplica
una nueva estructuracin de las organizaciones, de las
sociedades y del mercado[1]. Dicha estructuracin, ha
configurado un entorno con alto grado de incertidumbre,

dinmico,deprofundoscambios,dondelatomadedecisiones
y la gestin del conocimiento, son elementos clave para
consolidar organizaciones eficientes, sostenibles, productivas
e innovadoras. De est forma, se hacen necesarias prcticas
sistemticas que garanticen la estabilidad y el crecimiento
econmico de las organizaciones en dicho entorno[2] y que
permitan basar sus procesos de produccin en la
incorporacinintensivadelconocimiento[3],propiciandoas
el cambio tecnolgico, la innovacin y la competitividad de
lasorganizacionesenunaeconomadelconocimiento1.
Unaprcticaquepuedeserutilizadaporlasorganizaciones
para monitorear los cambios descritos, es la vigilancia
tecnolgicaVT, la cual permite a una organizacin estar
atenta al cambio de manera sistemtica [4] a travs del
estudio permanente del mercado, del mbito cientfico
tecnolgico,delmbitopolticoydelmbitosocial[5].Estas
prcticas sistemticas, principalmente las del estudio del
mbito cientfico tecnolgico, permiten basarlosprocesosde
produccin en la incorporacin intensiva del conocimiento
involucrando principalmente informacin propia de dicho
mbito artculos y patentes en el desarrollo de nuevos
productos o procesos. As el ciclo de VT se compone de
cuatro fases: planeacin, bsqueda y captacin, anlisis y
organizacin,inteligenciaycomunicacin[6].
La herramienta informtica VIGTECH que se presenta en
1 Las sociedades a lo largo del tiempo han presentado elementos
caractersticosquedefinensusformasdeproduccinydeconstruccincomouna
sociedad, dichos elementos que autores como [1][3] denominan principios de
accin o principios organizadores del comportamiento humano, permiten
reconocer cules son las formas que las organizaciones y las instituciones
socialesutilizanparafuncionaryresponderasuentorno.As,enestemomento
histrico,eslaproduccindeconocimiento,laapropiacinyelusointensivodel
mismo, el elemento clave para producir bienes, servicios y atender a las
necesidadesdelasociedad.

RevistaAvancesenSistemaseInformtica,Vol.4No.1Juniode2007,Medelln,ISSN16577663

118

RevistaAvancesenSistemaseInformtica,Vol.4No.1,Juniode2007

esteartculo,esuninstrumentoparafacilitarlasprcticasde
vigilancia tecnolgica en una organizacin y est enfocada
principalmente en el mbito cientfico tecnolgico, tomando
como fuente de datos el servicio de informacin SCOPUS,
apoyandoasenlasfasesdecaptacinybsquedaanlisisy
organizacin e inteligencia. La herramienta VIGTECH
automatiza los procesos de captacin y bsqueda de datos
mediante el modulo CrawlerVIGTECH que permite
descargar los documentos cientficos de SCOPUS, y extraer
caractersticas de dichos documentos, construyendo as, una
base de datos relacional en la cual se almacenan
estructuradamente los metadatos del artculo y del autor.
Esto permite realizar anlisis descriptivos y anlisis
exploratorios de datos que apoyan la fase de anlisis y
organizacin. Por ltimo, la herramienta informtica
VIGETCH utiliza tcnicas de aprendizaje de mquina y de
minera de datos apoyando as la fase de inteligencia [5],
utilizando algoritmos para anlisis de redes sociales [7][8],
reduccin
de
dimensionalidad,
escalamiento
multidimensional [9], agrupamiento [10][11] modelos
grficos probabilsticos [12], entre otros, que permiten
vincular de una forma inteligible los resultados obtenidos
presentando indicadores, mapas, socio gramas y en general
representacionesrelacionalesdeuntpicodado.
As, esta herramienta permite encontrar las relaciones
existentes en los documentos cientficos, estasrelacionesson
de una parte cognitivas referidas a vnculos entre palabras
clave y de otra parterelaciones sociales representadas en los
vnculos de coautora, referenciales y de cooperacin
interinstitucional. stas relaciones en un plano general
permiten reconocer en el mbito cientfico tecnolgico qu
autores trabajan en que reas cules son las comunidades
estructuralmente fuertes oportunidades y amenazas que
pueden afectar a una organizacin enreasrelacionadascon
su campo de trabajo, cuerpos tiles de conocimiento actores
centrales y perifricos dentro de las redes sociales que se
construyen en una comunidad cientfica [7] posibles redes
que permitan llevar a cabo proyectos conjuntos
rentabilidades oportunidades de cambio cientfico
tecnolgicoeinnovaciones.
De esta forma el articulo presenta la herramienta
informticaVIGTECH,sufuncionalidad,suarquitectura,los
resultados obtenidos, y un estudio comparativo de las
herramientas para el apoyo de practicas de VT existentes en
el mercado (ver Tabla 2). VIGTECH se ha desarrollado
buscando de una parte darle un componente fuerte para las
fases de bsqueda, captacin e inteligencia tal como se ha
explicado en prrafos anteriores, y de otra parte se ha
desarrollado la herramienta en un entono Web que permita
interactuar de manera amigable e intuitiva a un empresario,
investigadorotomadordedecisiones.
EldesarrollodelaherramientainformticaVIGTECHest
basado en una licencia GPL, buscando as que las
organizaciones tengan acceso libre y puedan de esta forma

apoyar sus prcticas de VT. Creemos que disminuyendo los


altoscostos,integrandounainterfazamigableyconfigurando
una herramienta tan completa como sea posible es viable
potenciarelusodeestetipodeherramientas2.
As el artculo est organizado de la siguiente forma: la
Seccin 2 plantea el acercamiento terico y las tcnicas
computacionales utilizadas en la concepcin de la
herramienta informtica en la Seccin 3 se haceunanlisis
comparativo de las herramientas existentes para el apoyo de
practicasdeVTenlaSeccin4sedescribelaarquitectura,la
funcionalidad y la implementacin de la herramienta
VIGTECH en la Seccin 5 se muestran y discuten los
resultadosobtenidosfinalmente,enSeccin6sepresentalas
conclusionesyeltrabajofuturo.
II. CONCEPCINYESTABLECIMIENTODE
REQUISITOSDELAHERRAMIENTAINFORMTICA
VIGTECH
Lasprcticasdevigilanciatecnolgicabuscanelestudiode
comunidadescientficas,dadoquesonstaslasquepermiten
el desarrollo del conocimiento y porlotantoeselestudiode
dichascomunidadeselpuntodepartidaparaeldesarrollode
la herramienta informtica VIGTECH. El enfoque propuesto
paraeldiseodedichaherramienta,estbasadoenelmodelo
de unidades de anlisis de una comunidad cientfica [13]
donde se sealan tres unidades de anlisis cognitiva,
cientficaytextuallascualespermitenelmapeodelquehacer
de los cientficos. De esta forma, es posible reconocer las
relacionessociocognitivasquesepresentanenlaproduccin
del conocimiento que no son slo las relaciones cognitivas
(relaciones entre palabras) encontradas en un texto las que
representan el quehacer de los cientficos, sino tambin las
relaciones que se dan en la construccin social del
conocimiento,tomandoasrelevanciaelestudiolasestructurasy
losvnculossocialesqueaparecenenlosdocumentoscientficos,
talescomocoautoraocooperacininterinstitucional.
En este sentido la teora del actor red [14] aporta a esta
discusin y propone un enfoque complementario
reconociendoqueparaobservarlosprocesosdeproduccinde
conocimiento es necesario encontrar los elementos
vinculantes existentes al interior de un sistema derelaciones
en el que participan entidades sociales y documentales.
Entonces, para avanzar en el diseo de la herramienta
planteamos los siguientes requerimientos: i) la herramienta
debe estar enfocada a realizar anlisis reticulares
(relacionales)yporlotantoanlisissociocognitivos,ii)debe
modelar, representar y obtener medidas de las estructuras
sociales de la comunidad cientfica, iii) debe permitir el
anlisis de los documentos cientficos en el contexto de la
produccindeconocimientoyiv)debepermitirla identificacin
deinformacintil [15] parallevara acabo practicasdeVT.
2 Para el caso colombiano se observa en la Encuesta TICs a las empresas
manufacturerasqueencuestalasempresasinnovadorasenColombia,quesolo
el28%llevanacaboprcticasdeVTasistidasporherramientasinformticas.

Herramienta informtica de software libre para vigilancia tecnolgica VIGTECH Bucheli y Gonzlez
Por ltimo, identificamos las tcnicas computacionales que
nospermitansolventarlosrequerimientos,enlaTABLAIse
presentanlosresultados.
Tabla1.TcnicasComputacionalesparaSatisfacerRequerimientosdeun
SistemasparaelAnlisisdeComunidadesCientficas

Requerimiento

Mtodosdeanlisis

Tcnicascomputacionales

Representar
y
obtener medidas
de las estructuras
sociales de la
comunidad
cientfica.

Anlisisderedessociales:el
anlisisderedessociales,es
una metodologa de anlisis
cuantitativo y estructuralista
[7] que busca reconocer las
relaciones y sus estructuras
para poder encontrar en
dichosistemaderelacionesy
de actores, comportamientos
y en s la estructura o
estructuras sociales de la
comunidadanalizada.

El anlisis de redes sociales,


toma elementos del algebra de
matricesaligualquedelateora
degrafosparaconstruirdesdeun
conjunto delimitado de actores
vinculados entre s, una
representacin de las relaciones
existentes,dichosactorespueden
vincularse de diferentes modos,
adyacencia,afiliacinoatributos.
[16][17] qu significan los
parntesis.
De esta forma es posible
modelar, medir y visualizar las
estructurassociales,identificando
patrones
estructurales
por
ejemplo diadas, tradas, hoyos
estructurales, etc, y mtricas de
las estructuras relacionalestales
como grado, centralidad y
periferias,entreotras.
Estadsticas descriptivas y
multivariadas sobre el corpus
construido, indicadores como
nmero de investigadores,
nmero de artculos por ao o
indicadores bibliogrficos sobre
el estado de la publicacin
cientfica, tales como co
ocurrenciadepalabras,estudiode
referencias,etc.

Analizar
los
documentos
cientficos en el
contexto de la
produccin
de
conocimiento

Identificar
informacin til
parallevaracabo
practicasdeVT.

La herramienta
debe
estar
enfocada
totalmente
a
realizar anlisis
reticulares

Anlisis
estadsticos
descriptivos:
Permite
construirindicadoresbasados
enlaspropuestashechaspor
la
cienciometra
o
biliometra,
donde
el
principal objetivo es medir
el estado de la CyT+I [13].
Utilizando variables, tales
comoautores,palabrasclave,
revista donde fue publicado,
fechas, palabras encontradas
enelartculoopatente,entre
otras.
Los mtodos utilizados son
propios de la minera de
datos, de esta forma se
utilizan
tcnicas
de
extraccin de caractersticas
de
los
documentos
cientficos tales como
palabras clave, temticas,
etc. As lo que se busca es
identificar agrupamientos
naturalesdelosdocumentos,
identificar
patrones,
clasificaciones automticas,
entreotras[5][18]
Vincular los resultados
obtenidos por el anlisis de
redessocialesylaextraccin
de palabras clave, permite
representarenunmapatanto
las relaciones sociales como
lasrelacionescognitivas.

119

deprcticasdeVTsedebeatenderalciclooprocesodeVT,
el cual se compone de cuatro fases: planeacin bsqueda y
captacin anlisis y organizacin inteligencia y
comunicacin. Se construy as, un cuadro comparativo, el
cualsepresentaenlaTABLAII,estecuadrotomacomobase
los cuadros comparativos propuestos por los autores
mencionados pero se hace una nueva propuesta en tanto se
han actualizando los costos, e includo nuevos criterios de
comparacinprincipalmenteenlasfasesdebsqueday
captacin,einteligencia.
De esta forma, es posible ver cmo la herramienta
informtica VIGTECH obtiene un ndice de 0.78, lo cual
significaquecumpleconlascaractersticasdeunsoftware
Tabla2. Cuadro comparativodeherramientasqueapoyanlaspracticasde
vigilancia tecnolgica

especializado en documentacin cientfica, de bsqueda,

Extraccin de caractersticas:
vectores
de
caractersticas
documentales y funciones de
distanciapropiasparaestetipode
datosporejemplojaccard.
Para identificar informacin
til:
palabras
asociadas,
reduccin de dimensionalidad,
escalamiento multidimensional,
agrupamiento de documentos y
modelosgrficosprobabilsticos.

Las tcnicas utilizadas son


principalmente para visualizar y
obtener mtricas de los
resultados
previamente
obtenidos, as las tcnicas
utilizadas son reduccin de
dimensionalidad, escalamiento
multidimensional, agrupamiento
yvisualizacindegrafos.

III. ANLISISCOMPARATIVODELAS
HERRAMIENTASEXISTENTESPARAELAPOYODE
PRCTICASDEVT
Para llevar a cabo el anlisis comparativo entre las
herramientas existentes, se han tomado principalmente los
trabajos de[2],[6], estos plantean que para hacer un anlisis
comparativo de las herramientas informticas para el apoyo

captacin,procesamientoyanlisisconunmodulocompleto
paralafasedeinteligenciayenunentonoWeb,caracterstica
que las otras herramientas no tienen. De otra parte, la
inexistencia de herramientas libres que apoyen las prcticas
de VT da una ventaja comparativa importante. Por ltimo,
existen otros dos parmetros necesarios al momento de
escoger una herramienta informtica que apoye las prcticas
de VT, el primero relacionado con la necesidad de personal
expertoenlaherramienta,yelsegundoconloscostos[2].
Dado que la herramienta VIGTECHsehadesarrolladoen
un entorno Web la necesidad de personal experto se
disminuyedadas las condiciones expuestasanteriormentelos
costos tambin as los costos de las otras herramientas no

120

RevistaAvancesenSistemaseInformtica,Vol.4No.1,Juniode2007

solo incluyen la compra de la licencia, sino, costos de


instalacin y capacitacin de otra parte, los costos de la
tecnologadispuestaporlaorganizacinparadichopropsito,
tal es el caso de servidores, computadores,accesoaInternet,
entreotros,suponenunaaltainversindelaorganizacin,sin
embargo la herramienta VIGTECH est diseada bajo una
arquitectura cliente servidor. Dicha infraestructura ha sido
dispuesta en este momento por el Observatorio Colombiano
de Ciencia y Tecnologa, pero puede ser instalada en
cualquier organizacin que cuente con una infraestructura
similar.
As, podemos ver cmo de una parte se atiende a los
requerimientos planteados en la seccin anterior brindando
ventajas competitivas importantes pues no hay herramientas
que integren tcnicas propias de la cienciometra,
bibliometra,anlisisdedatos,deanlisisderedessocialesy
demineradeotraparte,podemosvercmoeldesarrollode
lacienciaylatecnologaenelpassepuedenverpotenciado
por el uso de prcticas de VT al interior de las
organizaciones.
IV. ARQUITECTURA,FUNCIONALIDADE
IMPLEMENTACINDELAHERRAMIENTA
INFORMTICAVIGTECH

A. Arquitecturayfuncionalidaddelaherramienta
Como ya se ha dicho en las secciones anteriores, la
herramientaVIGTECHeselprimerelementoeneldesarrollo
deunsistemaquepermitaapoyarcompletamentelas

prcticas de VT, dado que est basada solamente en el


mbito cientfico tecnolgico, y por lo tanto su diseo est
enfocado en el anlisis reticular de comunidades cientficas,
apoyandoprincipalmentetresfasesdelciclodeVT,estasson
las fases de bsqueda y captacin anlisis y organizacin e
inteligencia.
La arquitectura de la herramienta informtica VIGTECH
se presenta a travs de su visin estructural y su visin
funcional. En la Figura 1 se presenta la arquitectura de la
herramienta,lacualrespondeprincipalmentealosrequisitos
mencionadosenlaSeccin2,susmdulosysufuncionalidad.
Entonceslaherramientasedescribecomounsistemacapaz
de buscar, identificar, extraer y representar las estructuras
relacionales presentes en los documentos cientficos. As el
puntodellegadanoessimplementealmacenarlainformacin
producidatalcomosucedeactualmenteconSCOPUS,yotras
bases referenciales, sino es la fuente de informacin que
permite llevar a cabo prcticas de exploracin,
transformacin de datos y en ultima instancia, extraccin de
conocimiento [19], pues es de esta forma, que podemos
encontrar las estructuras que permiten contribuir a entender
los procesos de produccin de conocimiento y a la toma de
decisiones estratgicas. As, tcnicas de anlisis de datos, de
minera de datos y de aprendizaje de mquina permiten el
descubrimiento de patrones y la extraccin de conocimiento
en una compilacin de textos, haciendo explcitas las
relacionesexistentesentretemticasyautores.Porltimo,la
herramienta cuenta con un administrador de proyectos, que
permiteorganizarymantenerunhistorialdeltrabajollevado
acaboenlaherramienta.

B. MdulosdelaherramientainformticaVIGTECH
1) Mdulo para la construccin del corpus textual y
extraccin de caractersticas de documentoscientficos:este
mdulo permite obtener los documentos cientficos de forma
automtica mediante el crawlerVIGTECH. Ingresando una
cadena de bsqueda, el sistema es capaz de ingresar a
SCOPUSydescargarlosreportespordocumentoyapartirde
estos resultados generar una base de datos que extrae los
metadatos del documento, tales como ao, revista, ttulo,
resumen, entre otros, las palabras clave y los meta datos del
autor, tales como institucin de afiliacin, temas de inters
delautor,entreotros.Deotraparte,elsistemapermitecargar
datosapartirdeunarchivoplano.

2)Mdulodepreprocesamientoynavegacin:estemdulo
permite depurar los registros delabasededatos,depuracin
de forma y de repeticiones y navegar por el corpus
construido. De estaformateniendoelproyectoinicializadoy
la base construida se normalizan automticamente las
palabras clave a travs de Stemming3 y se normalizan los
Figur a1. Arquitecturadelaherramientainformtica VIGTECH
3 Tcnicadepreprosesamientoquepermiteencontrarlarazdeunapalabra,
enestecasoseutilizelalgoritmodePorter.

Herramienta informtica de software libre para vigilancia tecnolgica VIGTECH Bucheli y Gonzlez
autores a travs del cdigo de identificacin nico
proporcionado por SCOPUS, en la Figura 2 se presentan las
pantallasdeestosmdulos.

121

seencuentraonoeneldocumento.
El mdulopermitecalculardistanciasdesimilitudpropias
paraestetipoderepresentacionestaleselcasodelamedida
desimilitudJaccardy cosenoentreotras[10].
Para modelar las relaciones sociales se toman los
documentossegnsusrelacionesdeautora,construyendoas
una matrz de relaciones de coautora, donde undocumento
esdescritoporunvectordeltotaldeautoreselcualtiene1o
0sielautorseencuentraonoeneldocumento.As,loquese
busca en este mdulo es de una parte construir matrices
binarias, de palabras clave, autores, etc. y de otra parte
modelarlasrelaciones,atravsdelafrecuenciadeaparicin
de la palabra clave en el ttulo o resumen o de nmero de
coautores en un documento lo cual permite modelar el
documento con funciones de frecuencia, frecuencia inversa,
etc.[10]

Figur a2. Mduloparalaconstruccindelcorpustextualyextraccinde


caractersticasdedocumentoscientficosyMdulodepreprocesamientoy
navegacin:

3) Mdulo de anlisis descriptivos: con el corpus


almacenado y preprocesado se construyen las frecuencias de
laspalabrasclaveydelosautores.Estosanlisisestadsticos
descriptivos de la produccin cientfica se basan en la
construccin de indicadores de conteos bibliogrficos los
cuales pueden ser datos de la produccin clasificada por
aos, nombres de los autores, palabras contenidas en los
ttulos o resmenes, descriptores e identificadores, citas que
hacecadaartculo,etc.Deestaformaseconstruyentablasde
frecuencias que permiten construir indicadores bsicos
propios de la bibliometra y cienciometra y sus respectivas
relaciones son tiles al momento de modelar los vnculos
sociocognitivos.
4) Mdulo de modelamiento de relaciones socio
cognitivas: con el fin de construir mtricas y mapas de las
redes temticas y sociales que se encuentran en los
documentos cientficos, se modelan los documentos de
acuerdo con sus caractersticas documentales tales como
autores, palabras clave, entre otras. Este mdulo construye
matrices que modelan el conjunto de documentos, de esta
formalamatrzsecomponedevectoresdecaractersticaspor
documento, el cual tiene1o0silapalabraclave,autor,etc.

Figur a3. Mdulodevisualizacin,navegacinydemtricas

5) Mdulo de visualizacin, navegacin y de mtricas


reticulares: este modulo se desarroll para realizar mapas
tecnolgicos,sociogramasyconstruirmtricasreticulares.El
objetivo principal es utilizar tcnicas de reduccin de
dimensionalidad, de escalamiento multidimensional, de
agrupamiento [20] y de anlisis de redes sociales para
construirunarepresentacinendosotresdimensionesdeun
reacientficadeintersymtricasquedencuentadelestado
y las dinmicas de dicha rea. Buscando la representacin
visual de los datos obtenidos se presentan grficos donde se
describeelcomportamientodeuntpicoografosquedeigual
formapermitenconstruirmedidasyobtenerrepresentaciones
donde se vinculan la dimensin social y cognitiva. En la
Figura3sepresentalapantalladeestemdulo.Losnodosdel
grafo visualizado corresponden a los autores y los arcos las
relacionesdecoautora.

C. Implementacin
ParaeldesarrollodelaherramientainformticaVIGTECH
seutilizlaarquitecturaclienteservidor.ComoservidorWeb
seutilizApache2.0Handler,ycomomotordebasededatos

122

RevistaAvancesenSistemaseInformtica,Vol.4No.1,Juniode2007

MySQL4.0.18.LosdesarrollosserealizaronenPHPVersin
4.3.4yJavaScript.
Paralogrardichaimplementacinsetuvoencuentaqueel
desarrollo de sta supone un gran esfuerzo y por lo tanto se
plante la necesidad de integrar en una sola herramienta
informtica, software disponible para propsitos especficos
tal es el caso de R (Foundation for Statistical Computing)
versin 2.0 y Weka (Waikato Environment for Knowledge
Anlisis), software que dispone de bibliotecas especializadas
parahaceraprendizajedemaquinaymineradedatos,deesta
forma utilizando las implementaciones de algoritmos de
visualizacin,clusteringyanlisisderedessocialesseintegr
atravsdePHPalaherramientaVIGTECH.
Para identificar e implementar las tcnicas de
visualizacin,mineradedatosyanlisisderedessocialesse
Tabla3 Libreras y Funciones deR utilizadas

Tcnicacomputacional

Funcionesylibreriasutilizadas

Anlisisdecomponentesprincipales
Escalamientomultidimensional

Agrupamiento

prcompdelalibreraSTATS
isomds,sammon,cmdscale
prcompdelalibreraSTATS
SOM,Hculst,pamincluidasenla
libreracluster,

hizo un trabajo exploratorio el cual permiti reconocer las


tcnicas computacionales que permiten desarrollar mapas
cientficos y definir las funciones y libreras tiles para la
herramienta, de esta forma las funciones y libreras de R
utilizadassepresentanenlasiguientetabla:
V. MTODOSPARAELPROCESAMIENTOY
EXTRACCINDECONOCIMIENTO
En esta seccin se describe las fases de extraccin de
caractersticasdelosdocumentos,elmodelamientodedichos
documentos, las tcnicas utilizadas en la extraccin de
conocimiento y en la visualizacin a travs de mapas de los
resultadosobtenidos.

A. Extraccindecaractersticasyrepresentacinde
documentos.
Un documento puede considerarse como un vector D de
caractersticas hasta un total de j, donde un valor que
pertenece a los nmeros naturales expresa en que grado el
documentoposeelacaractersticaenlaposicini.
(1)

D = (c1,,c2,c3,K ,cj )

(2)

ci N

La caracterstica en este caso es la ocurrencia o no de


determinas palabras, autores o de la frecuencia de aparicin
deunodeestoseneldocumento.
Para calcular la similitud de un documento a otro se ha
utilizadoelcalculodedistanciaspropiasparadatosbinarios

[(presencia (1) y ausencia (0)] as tenemos principalmente


Jaccard,ycoseno.
El coeficiente de Jaccard (porcentaje de presencia
ausencia)puedevariarentre0y1,donde0indicaausenciade
caractersticas en comn y 1 en el caso que los documentos
seanidnticos.
(3)

J =

2a
2a + b+ c

Donde (a) representa dos presencias (1:1), (b) representa


presenciaausencia(1:0)y(c)ausenciapresencia(0:1).
La distancia coseno permite medir la similitud entre un
documento y otro, est se puede representar como el ngulo
entre sus representaciones en el espacio vectorial, noventa
grados sin similitud (perpendicular), cero grados mxima
similitud(idnticos).

D ( x, y) =1- x y
(4)

( x y )

Dondex.yeselproductopuntoentrexey,y|x|eslanorma
delvectorx.

B. Construccinyvisualizacinderedescognitivas.
Para la construccin y visualizacin de redes cognitivas o
depalabrasclaveseutilizartcnicasqueobtienenmapasque
representan las caractersticas ms relevantes segn un
criterio y las relaciones de estas caractersticas, dichas
tcnicas son anlisis de componentes principales,
escalamiento
D ( x, y) =1- x y
( x y )
multidimensional y
agrupamiento.
1)AnlisisdeComponentesPrincipales(PCA):elobjetivo
del anlisis de componentes principales es reducir la
dimensin de un conjunto de variables a un conjunto m de
menornmerodevariablesquepermitamanejarelproblema
de la multidimensionalidad, obteniendo as una
representacinqueofrecelamayorinformacindisponibleen
elconjuntodedatos,deestaformasebuscalaproyeccinde
losdatosdentrodenuevoconjuntodeejes.Aselanlisisde
componentesprincipalesbuscacentrarlosdatosenlamedia,
escalarlavarianzayrotarlosejesprincipalesproducidospor
unatransformacinlinealortogonal.

2) Escalamiento multidimensional (MDS): es un mtodo


basadoenlainformacindelasdistanciasdeunconjuntode
datos multivariados, busca reducir la dimensin L
encontrando un conjunto de vectores que pertenezcan a los

Herramienta informtica de software libre para vigilancia tecnolgica VIGTECH Bucheli y Gonzlez
realesyquereproduzcalasdistanciasdelconjuntoinicial.En
trminos generales podemos decir que un MDS es un PCA
que previamente ha utilizado una funcin de distancias para
hacer la reduccin de dimensionalidad de sta y no de los
datos originales. Un MDS comienza conunconjuntodeejes
tomados de PCA y busca minimizar el stress o media del
errorcuadrticoentreelconjuntoinicialdeejesylamatrizde
distancia original, la tcnica comnmente utilizada es
sammon, esta tcnica define la medida del stress como la
relacin existente entre la matriz de distancias y una matriz
randomicacreadaconigualdistribucinenunespaciodedos
dimensiones.

3) Agrupamiento (CLUSTERING): esta tcnica permite la


organizacin de una coleccin de patrones usualmente
representados por un vector de caractersticas o un punto en
un espacio multidimensional. Encontrando agrupaciones
naturales de los datos basadas en una funcin de similitud o
disimilitud entre los vectores o puntos. As, los puntos que
comparten caractersticas se agrupan dado que son
homogneos y por lo tanto estarn dentro de los mismos
grupos (mnima varianza) ylosdatosdismilesquedaranen
grupos diferentes y separados entre ellos(mximavarianza).
Las tcnicas de agrupamiento utilizadas en la herramienta
son aglomerativas, y de grafos de particin. Para el caso de
las tcnicas aglomerativas, se encuentran agrupaciones
asignadoinicialmentecadaobjetoaungrupo yrepetidamente
se unen pares de grupos hasta cumplir con un criterio de
parada, las formas de unin utilizadas son enlace simple y
enlacecompleto,paraelcasodelastcnicasdeagrupamiento
basadas en grafos de particin, se construye un grafo como
modelo de afinidad de las relaciones entre las palabras y
despusseparticionaoseexigeelgrafo.
Los mtodos particionales consideran solamente las
relaciones de afinidad entre un objeto y un pequeo nmero
de los ejemplos similares, lo cual permite identificar los
gruposdetemticasenuntpicodado.

C. Construccinyvisualizacinderedessociales.
Paralaconstruccinderedessocialesseutilizanelementos
delAnlisisdeRedesSocialesARS,estaesunametodologa
cuantitativa y estructuralista que permite reconocer los
sistemas de relaciones presentes en una comunidad
identificando de una parte actores centrales, perifricos, de
paso obligado, etc. y de otra, los comportamientos, patrones
de enlaces, uniones estables que dan cuenta de vnculos
irreversibles, que expresan la existencia de uniones internas
fuertemente ligadas en las cuales se presentan normas,
valoresyorientacionespropiasdelacomunidad.AselARS,
utiliza elementos tomados del lgebra matricial al igual que
de la teora de grafos para construir desde un conjunto
delimitado de actoresvinculadosentres,unarepresentacin
de las relaciones existentes. De esta forma las relaciones de
coautorasemodelancomoungrafoendondeenlosnodosse
encuentran los autores y los enlaces representan las
relaciones.Deestaformaseobtieneungrafodecoautorasal

123

cual se pueden aplicar diferentes medidas tales como grado,


centralidadporintermediacin,etc.

D. Construccinyvisualizacinderedessociocognitivas.
La tcnica de modelos grficos probabilsticos, permite
encontrar la dependencia existente entre las relaciones de
autores y palabras clave frente a la categora. Entoces se
busca determinar qu variables influencian dicha categora,
estoesposibledadoqueexistenrelacionesdocumentalesque
clasificandichosdocumentosporsuspalabrasclavey porsus
relaciones de coautora, que evidencian las relaciones
sociales existentes en una comunidad acadmica. para ello,
semodelanlosdocumentosysusrelacionescomounaredde
probabilidades donde se pueden hacer inferencias, encontrar
variables relacionadas no conocidas o correlaciones. En los
casos donde todas las variables son no conocidas estas
tcnicasnospermitenmodelarlasposiblescorrelacionesentre
las variables de las que s tenemos informacin y de esta
forma construir una red Bayesiana que permita hacer
inferencias y por lo tanto caracterizar las relaciones
probabilsticasexistentesentrelasvariablesylaclase.
VI. RESULTADOSOBTENIDOS
Los resultados que se presentan a continuacin estn
organizados de acuerdo a las fases del ciclo de VT se
presentan los tiempos de descarga, los indicadores, las
matricesyvisualizacindemapasysociogramasobtenidose
implementados en la herramienta informatica VIGTECH,
paraestefinseutilizarondiferentesconjuntosdedatosporlo
cual los resultados que se presentan a continuacin dan
cuentasolamente,delosresultadosquesehanobtenidocomo
desarrollodelaherramientaynodeberansertomadoscomo
unejerciciodemineradedatosodeanlisisdeuntpico.

A. Fasedebsquedaycaptacin:
El crawlerVIGTECH, permite conectarse a SCOPUS y
descargarautomticamentelosartculoscientficos,eltiempo

Figur a5. Anlisisdeanlisisdescriptivos

promedio de descarga es de 0,3 segundos/artculo, una vez


descargados los documentos se extraen las siguientes
caractersticas del documento: nombre de la revista y meta

124

RevistaAvancesenSistemaseInformtica,Vol.4No.1,Juniode2007

datos,ttulodelartculo,tipodedocumento,nmerodecitas
enSCOPUS,resumen,nmerodereferenciasutilizadasenel
artculo, correo del autor, palabras clave, autor y metadatos
del autor tales como id del autor en SCOPUS, afiliacin
institucionalyreasdeintersdelautor,paralaextraccinde
caractersticas e insercin en la base de datos el sistema se
demora 1 segundo/artculo. Fase de anlisis de anlisis
descriptivos
Elsistemapermitellevaracabodiferentesanlisisdesdela
construccin de indicadores tales como nmero de artculos
por palabra clave, nmero de artculos por ao, autores por
revista,nmerodepublicacionesdeunautor,entreotros.De
igual manera, el sistema es capaz de obtener estadsticas
bsicas,enlasiguientefigurasepresentanalgunosresultados
alrespecto.
Deotraparte,elsistemapermitellevaracaboanlisisde
Figur a7. MDSaplicadoapalabrasclave

Figur a6. Anlisisdecomponentesprincipales

componentesprincipalesPCAparaelcasodepalabrasclave
enlafigura6sepresentaunPCAobtenidoparaunconjunto
de datos de gestin del conocimiento. Esta tcnica da una
representacin de los documentos pero no permite una fcil
interpretacin de los resultados, en el siguiente grfico seve
cmo la categora knowledge management(KM) est cerca
delcentroycercadelamediayhayunaltogradodecercana
de los datos de las categoras Internet(I), management(M),
information retrieval(INFR), sin embargo, no se puede decir
que son gruposdetemticassimplementesepuededecirque
hayunaaltacorrelacinentreestascategoras.Porltimo,se
puede decir que hay unas categoras que se encuentran
alejadas tales como Data mining (DM) o knowledge
representation (KR), lo cual nos da un acercamiento al
problema y un primer acercamiento a la construccin de
mapascientficos.
Otras tres tcnicas de exploracin de datos utilizadas son
escalamiento multidimensional, agrupamiento y anlisis de
redessociales.Paraelcasodeescalamientomultidimensional
los resultados obtenidos permiten tener una representacin
msacertadadadoquecomodijimosanteriormentese

mapean las distancias y no las relaciones entre los datos


permitiendo as tener una representacin con mayor
informacin. Para la evaluacin de las tcnicas de reduccin
de dimensionalidad ydeanlisisdecomponentesprincipales
seutilizaronmedidasdeexplicacinydeestrssqueexpresen
larepresentatividadquetienenesosresultadosdelconjuntode
datos particular. La tcnica de PCA da un valor de
explicacin del 54.12% para el conjunto de gestin del
conocimiento lo cual no es un valor bueno dado que no
explica bien el modelo, esto se puede evitar utilizando las
tcnicasdeescalamientomultidimensional,buscandomapear
las distancias y no los datos, obteniendo as un valor de
estrss del 70 % para el mismo conjunto. En la siguiente
Figura se presenta la implementacin del MDS yaplicado a
las palabras clave del conjunto de datos (artificial immune
systems).

B. Fasedeanlisissociocognitivos

Figur a8. Reddepalabrasclave.

Para la fase de inteligencia se han utilizado principalmente


tcnicas de redes sociales y agrupamiento para obtener las
relacionesexistentesentrelaspalabrasclaveylosautores.Un

Herramienta informtica de software libre para vigilancia tecnolgica VIGTECH Bucheli y Gonzlez

125

primer acercamiento al anlisis de redes por palabras clave


(ver Figura 8) muestra cul es el ncleo del cuerpo de
conocimientos de un tpico dado, de esta forma es posible
encontrarlaspalabrasclavequetienenmayortransitividaden
el grafo y estn ms correlacionadas formando as
componentes y representando el ncleo del cuerpo de
conocimiento. Deotraparte,existenotraspalabrasclaveque
no tienen vnculos, lo cual sugiere preguntas tales como, si
estas temticas estn en emergencia o son temticas que
perdieronvigencia,deestaformaencontramosenelcentrode
la estructura a knowledge management (KM) y una
componente principal de 28 nodos lo cual representa el
ncleo del rea del conocimiento. En la siguiente Figura se
presentalaimplementacindelareddepalabrasclave parael
conjuntodedatos(artificialimmunesystems).
La tcnica de agrupamiento es la que mejores resultados
ofrece, as para la exploracin de temticas del rea Gestin
del Conocimiento se utilizaron algoritmos de agrupamiento
talescomoalgoritmosaglomerativos,degrafosdeparticiny
se variaron las funciones de distancia, obteniendo varios
resultadosquepermitentenerunmapadelasreasenlasque
se est trabajando en el tpico de gestin del conocimiento
KM., Obtuvimos los siguientes grupos descritos por las
palabrasclavemsrepresentativasdelcluster:
KnowledgeManagement,elearning,information
technology
KnowledgeManagement,datamining,ontology,
knowledgemodeling,
KnowledgeManagement,organizationaldevelopment,
organizationallearning
KnowledgeManagement,documentmanagement,
KnowledgeManagementsystem
KnowledgeManagement,semantics,communitiesof
practices
KnowledgeManagement,Knowledgenetworks,
communitiesofpractices.
Porltimo,esatravsdelanlisisderedessocialesquese
buscareconocerymedirlasestructurassocialesalinteriorde
unacomunidadcientfica,talcomosepresent enlaFigura3.
elgrafodecoautoriasdeltpico(artificialimmunesystems),
permite reconocer estructuras o componentesenelgrafoque
dancuentadelaexistenciaderelacionesfuertesenesecampo
deestudio, Estegrafodirigidoestcompuestopor70autores
que tienen una frecuencia de aparicion mayor a 4, dicho
resultado permite identificar grupos que son fcilmente
reconocibles por su centralidad dentro de la estructura de
relaciones, yuna componente delgrafodecompuestapor11
autors y las otras componentes de menos numero que
representando las tematicas y quelasrelacionesdecoautoria
estan fuertemente ligadas a las relaciones tematicas. De esta
forma podemos obtener un sociograma en el que se
representanlosvnculosdecoautoradelreaylaestructura
derelacionesexistenteenestacomunidadcientfica.Es

Figur a9. Directedacyclicgrapas(DAG), resultado modelosgrficos


probabilsticas

claramente reconocible un subconjuntodeautoresquetienen


mayor centralidad en el grafo, el resto se encuentra en la
periferia, la medida utilizada para estetrabajoescentralidad
porintermediacincentralitybetwenesslacualesde0,13en
promedioindicandoqueesuntpicoenelcualnohayredes
decoautorafuertes,consolidadassinoanenemergencia.
Por ltimo, se presenta la redobtenidaatravsdelatcnica
de modelos grficos probabilsticos en la siguiente figura se
presentan los resultados obtenidos, estos describen
claramentelasrelacionesentrelaspalabrasclave,coautora,
y la clase KM, esta representacin se acerca ms a una red
sociocognitiva,dadoqueencontramosrelacionestalescomo,
las del autor Chen con innovacin, o de Tiwana con Chen,
sobre gestin del conocimiento con capital intelectual o la
inexistencia de relaciones de capital intelectual con minera
dedatosodeWangconChen,estonospermitevercmoesta
tcnica ofrece resultados ms inteligibles para construir un
mapacientficotecnolgicodeuntpicodado.

VII. CONCLUSIONESYTRABAJOFUTURO
Los avances conseguidos con el desarrollo de laherramienta
informticaVIGTECHhanpermitidoelmodelamientodelos
documentos por sus palabras clave y autores, el anlisis
descriptivo del corpus documental yelanlisisdelosdatos,
deestaformasehaautomatizadolosprocesosdebsqueday
captacin anlisis e inteligencia del proceso de VT. La
versin beta de la herramienta se encuentra en el link
http://201.245.12.66/vigtech/ver_1/vigtech/index.php
Este acercamiento permite la recuperacin de informacin y
laextraccindeconocimientodeladocumentacincientfica,
disminuyendo el desgaste, el tiempo y la curva de
aprendizaje,seesperaqueelusodeestaherramientapermita
el avance en la incorporacin de conocimiento cientfico el

126

RevistaAvancesenSistemaseInformtica,Vol.4No.1,Juniode2007

desarrollo de nuevos productos o procesos el desarrollo del


estado del arte de una investigacin, el reconocimiento del
estado y la dinmica de la ciencia y la tecnologa en un
departamento, pas u organizacin, y que a travs de esta
obtengan informacin til para la toma de decisiones y
planeacindepolticasenmateriacientfica.
Sehalogradohacerunaprimeravalidacindelaherramienta
informticaVIGTECHconstruyendounconjuntodeartculos
cientficosycaracterizarlosdocumentosatravsdepalabras
clave y autores, representar sus estructuras relacionales y
encontrar mtricas de dichas representaciones. Se encontr
que las tcnicas utilizadas permiten dar una representacin
visual de los documentos y que las tcnicas ms acertadas
para dar dichas representaciones, son los modelos grficos
probabilsticos, agrupamiento y anlisis de redes sociales
dado que permiten una interpretacin ms intuitiva de las
representaciones mientras que las tcnicas de reduccin de
dimensionalidad PCA o MDS dan una representacin de los
documentos pero no permiten una fcil interpretacin de los
resultados.
Como trabajo futuro se integrar completamente la
herramientacomounslopaquetedesoftware,ysevalidar
en diferentes centros de desarrollo tecnolgico, grupos de
investigacin y empresas. De otra parte, es determinante
seguir desarrollando y mejorando esta primera versin
buscando aumentar la eficiencia de la herramienta pues por
ser una herramienta web, en los procesos de captura, pre
procesamiento, construccin de matrices, anlisis de redes
sociales, lostiemposdeesperasonamplios,portalrazn,se
propone incluir tcnicas eficientes de computacin de
matricesconelfindeminimizarlacomplejidadquesuponen
lasrepresentacionesmatriciales.
AGRADECIMIENTOS
Manifestamos nuestro agradecimiento al Observatorio
ColombianodeCienciayTecnologaporsusvaliososaportes
y participacin en el proyecto, y por permitir utilizar sus
recursos e infraestructura informtica con lo cual se ha
podidoavanzareneldesarrollodeestherramienta.
REFERENCIAS
[1] M. Castells, La Sociedad Red. La Era de la Informacin, Madrid: Ed.
Alianza,1996
[2] A. Leon , O. Castellanos y F. W. Vargas., Valoracin, seleccin y
pertinencia de herramientas de software utilizadas en vigilancia
tecnolgica, RevistadeIngenieraeinvestigacin,Vol. 26(01),p.92102,
2006.
[3] F.Chaparro, ApropiacinSocialdelConocimiento,Aprendizajeycapital
social, Medelln,UniversidaddeAntioquia,SimposioInternacionalsobre
CienciaySociedad,2003.
[4] M.Ramon,Delavigilanciaalainteligenciacompetitiva. Madrid:Prentice
Hall, 2001.
[5] A. Porter,S. Cunningham, Tech Mining, Exploiting new technologies for
competitiveadvantage.NewJersey:JohnWiley&Sons,2005.
[6] M.Sanches, F. Palop.(2007, Enero 20). Herramientas de Software
especializadas para Vigilancia Tecnolgica e Inteligencia Competitiva
[Online].disponibleen www.intempres.pco.cu

[7] S.Wasserman, K. Faust, D. Iacobucci, M. Granovetter, Social Network


Analysis : Methods and Applications (Structural Analysis in the Social
Sciences).Cambridge:Cambridge UniversityPress,2004.
[8] CH. Chen, The centrality of pivotal points in the evolution of scientific
networks. En: Proceedings of the 10th international conference on
Intelligentuserinterfaces,p.98105,2005.
[9] R. Jhonson y D. Wichern, Applied multivariate statistical analysis. New
Jersey:PrenticeHall,2002.
[10] S. Sebastiani, Machine learning in automated text categorization. En:
ACMComputSuv,34,p.147,2002.
[11] J. Zhu ,J. Hong y J. S. Hughes, PageCluster: Mining conceptual link
hierarchiesfromWeblogfilesforadaptiveWebsitenavigation.En:ACM
Trans.Inter.Tech,Vol4(2),p.185208,2004.
[12] G. Bottcher, Learning Bayesian Networks with Mixed Variables. En
ArtificialIntelligenceandStatistics,p.149156, 2001.
[13] L. Leydesdorff, The SelfOrganization of the KnowledgeBased Society.
Budapest:Typotext.2005.
[14] M. Callon, Rseauetcordination.Paris:EdEconomica,1999.
[15] M. Lewkowicz, Summary of COOP'04 workshop on interaction and
knowledgemanagement. En:SIGGROUPBull,24,p.25,2004.
[16] B. Yu, P. Munindar, Searching social networks. En: Proceedings of the
second international joint conference on Autonomous agents and
multiagent systems, July1418,2003.Melbourne:ACMPress,p.6572,
2003.
[17] Bekkermany A. Mccallum, DisambiguatingWebappearancesofpeoplein
a social network. En:ProceedingsofWWW2005bibtexppt.Disponible
http://citeseer.ist.psu.edu/bekkerman05disambiguating.html el 13 de
noviembrede2006,2005.
[18] E.Weippl,Visualizingcontentbasedrelationsintexts.En:Proceedingsof
the 2nd Australasian conference on User interface. Queesland: ACM
InternationalConferenceProceedingSeries,Vol.14,p.3441,2001.
[19] M. Kobayashi, K.R Takeda, Information retrieval on the web. En: ACM
Comput.Surv,32,p.144173,2000.
[20] E.Weippl,Visualizingcontentbasedrelationsintexts.En:Proceedingsof
the 2nd Australasian conference on User interface. Queesland: ACM
InternationalConferenceProceedingSeries,Vol.14,p.3441,2001.

Вам также может понравиться