Вы находитесь на странице: 1из 283

i

Gua del usuario de IBM SPSS Text


Analytics for Surveys 4.0.1

Nota: Antes de usar esta informacin y el producto al que hace referencia, lea la informacin
general en Avisos el p. 262.
Esta edicin se aplica a IBM SPSS Text Analytics for Surveys 4 y a todas las versiones y
modificaciones subsiguientes hasta que se indique lo contrario en nuevas ediciones.
Capturas de pantalla de productos de Adobe reimpresas con permiso de Adobe Systems
Incorporated.
Capturas de pantalla de productos de Microsoft reimpresas con permiso de Microsoft Corporation.
Material bajo licencia - Property of IBM
Copyright IBM Corporation 2004, 2011.

Derechos restringidos de usuarios del Gobierno de EE.UU - El uso, duplicacin o revelacin est
restringido por el GSA ADP Schedule Contract con IBM Corp.

Prefacio
Bienvenido a IBM SPSS Text Analytics for Surveys versin 4.0.1, una aplicacin de
codificacin de texto de encuestas que proporciona un anlisis significativo de las respuestas a las
preguntas con final abierto. Con este producto, cualquiera que realice anlisis de encuestas puede
transformar rpidamente las respuestas no estructuradas en datos cuantitativos. El desbloqueo
de estos datos de texto con final abierto pueden mejorar significativamente la calidad del
anlisis y la capacidad de la toma de decisiones. Esta aplicacin permite importar los datos
de la encuesta, extraer los conceptos clave, refinar los resultados y categorizar las respuestas.
Una vez categorizados los datos, puede exportar las categoras para importarlas en herramientas
analticas cuantitativas, como el sistema IBM SPSS Statistics, para un anlisis y generacin
de grficos ms exhaustivo.
SPSS Text Analytics for Surveys combina las tecnologas lingsticas avanzadas diseadas
para extraer y clasificar con fiabilidad los conceptos clave de las respuestas de las encuestas con
final abierto mediante tcnicas manuales. Gracias a los slidos algoritmos de generacin de
categoras y a la sencilla funcionalidad de arrastrar y soltar, puede crear categoras o cdigos en
los que categorizar las respuestas de las encuestas. Adems, las categoras que se generan podrn
reutilizarse para proporcionar as un resultado coherente en estudios idnticos o similares. Puesto
que los datos de las respuestas con final abierto pueden variar mucho de una encuesta a otra, dos
proyectos nunca sern exactamente iguales; sin embargo, puede seguir el mismo proceso bsico
para llevar a cabo los anlisis. Si desea obtener ms informacin, consulte el tema El proceso
tpico en el captulo 2 el p. 10.

Acerca de IBM Business Analytics


El software IBM Business Analytics ofrece informacin completa, coherente y precisa en la
que los rganos de toma de decisiones confan para mejorar el rendimiento comercial. Un
conjunto integral de inteligencia empresarial, anlisis predictivo, rendimiento comercial y gestin
de estrategias, as como de aplicaciones de anlisis predictivo, le ofrece una perspectiva clara,
inmediata e interactiva del rendimiento actual y la capacidad para predecir resultados futuros. En
combinacin con extensas soluciones sectoriales, prcticas probadas y servicios profesionales, las
organizaciones de cualquier tamao pueden conseguir el mximo de productividad, automatizar
decisiones de forma fiable y alcanzar mejores resultados.
Como parte de esta familia, el software de anlisis predictivo de IBM SPSS ayuda a las
organizaciones a predecir eventos futuros y actuar proactivamente segn esa informacin para
lograr mejores resultados comerciales. Los clientes comerciales, gubernamentales y acadmicos
de todo el mundo confan en la tecnologa de IBM SPSS como ventaja ante la competencia
para atraer, conservar y hacer crecer los clientes, reduciendo al mismo tiempo el fraude y los
riesgos. Al incorporar el software de IBM SPSS en sus operaciones diarias, las organizaciones se
convierten en empresas predictivas, capaces de dirigir y automatizar decisiones para alcanzar los
objetivos comerciales y lograr una ventaja considerable sobre la competencia. Para obtener ms
informacin o contactar con un representante, visite http://www.ibm.com/spss.

Copyright IBM Corporation 2004, 2011.

iii

Asistencia tcnica
La asistencia tcnica est disponible para clientes con servicio de mantenimiento. Los clientes
podrn ponerse en contacto con el servicio de asistencia tcnica si desean recibir ayuda sobre la
utilizacin de los productos de IBM Corp. o sobre la instalacin en los entornos de hardware
admitidos. Para contactar con el servicio de asistencia tcnica, visite el sitio Web de IBM Corp. en
http://www.ibm.com/support. Tenga preparada su identificacin, la de su empresa y el acuerdo de
asistencia tcnica cuando solicite asistencia.

iv

Contenido
Parte I: Primeros pasos
1

Acerca del Anlisis de texto

Novedades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
Datos de encuestas con final abierto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
Acerca de la minera de datos de texto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
Cmo funciona la extraccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
Funcionamiento de la categorizacin. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
Preparacin para el anlisis del texto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
Fiabilidad y ajuste . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
Refinamiento de los recursos lingsticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
Refinamiento de las definiciones de categora . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

Primeros pasos

10

El proceso tpico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
La ventana Anlisis de texto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
La vista Pregunta. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
La vista Proyecto completo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
La ventana Editor de recursos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
Opciones de configuracin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
Opciones: pestaa Sistema . . . . . . . . . . . . . . . . . . . . . . . . . .
Opciones: Pestaa Mostrar . . . . . . . . . . . . . . . . . . . . . . . . . .
Opciones: pestaa Sonidos . . . . . . . . . . . . . . . . . . . . . . . . . .
Opciones: pestaa Traduccin . . . . . . . . . . . . . . . . . . . . . . .
Configuracin de Microsoft Internet Explorer para obtener ayuda

...
...
...
...
...

...
...
...
...
...

...
...
...
...
...

...
...
...
...
...

...
...
...
...
...

...
...
...
...
...

...
...
...
...
...

...
...
...
...
...

18
19
21
22
23

Parte II: Anlisis de texto


3

Creacin de proyectos y paquetes

26

Creacin de proyectos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
Preparacin de los datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
Inicio de proyectos nuevos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
Seleccin de los orgenes de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

Seleccin de variables . . . . . . . . . . .
Traduccin al ingls. . . . . . . . . . . . . .
Seleccin de categoras y recursos . .
Uso de los paquetes de anlisis de texto. .

...
...
...
...

...
...
...
...

...
...
...
...

...
...
...
...

...
...
...
...

...
...
...
...

...
...
...
...

...
...
...
...

...
...
...
...

...
...
...
...

...
...
...
...

...
...
...
...

...
...
...
...

...
...
...
...

34
36
37
41

Creacin de paquetes de anlisis de texto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41


Actualizacin de los paquetes de anlisis de texto. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43

Trabajo con proyectos

47

Apertura de proyectos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
Edicin de las propiedades del proyecto. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
Vista de los datos del proyecto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
Ordenacin de las variables. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
Edicin de las propiedades de variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
Guardado de proyectos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
Exportacin de los resultados de la categorizacin. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
Exportacin a IBM SPSS Statistics o IBM SPSS Data Collection . . . . . . . . . . . . . . . . . . . . . . 54
Exportando a Microsoft Excel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
Exportacin de grficos de resumen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
Cambio de los orgenes de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
Seleccin de los orgenes de datos . .
Seleccin de variables . . . . . . . . . . .
Variables coincidentes . . . . . . . . . . .
Traduccin al ingls. . . . . . . . . . . . . .
Actualizacin de los datos . . . . . . . . . . . .

...
...
...
...
...

...
...
...
...
...

...
...
...
...
...

...
...
...
...
...

...
...
...
...
...

...
...
...
...
...

...
...
...
...
...

...
...
...
...
...

...
...
...
...
...

...
...
...
...
...

...
...
...
...
...

...
...
...
...
...

...
...
...
...
...

...
...
...
...
...

62
67
69
70
72

Traduccin al ingls . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
Cmo compartir proyectos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
Marcacin de las respuestas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
Barra de estado del proyecto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75

Extraccin de datos

78

Resultados extrados: Conceptos, tipos y patrones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78


Extraccin de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
Cmo guardar los resultados de la extraccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
Refinamiento de los resultados de la extraccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
Adicin de sinnimos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
Adicin de conceptos a tipos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89

vi

Exclusin de conceptos de la extraccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91


Forzado de palabras en la extraccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92

Categorizacin de los datos de texto

93

El panel de categoras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
El panel de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
Relevancia de categora . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
Mtodos y estrategias para crear categoras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
Mtodos para crear categoras . . . . . . . . . . .
Estrategias para crear categoras . . . . . . . . .
Consejos sobre la creacin de categoras . . .
Seleccin de los mejores descriptores . . . . .
Acerca de las categoras . . . . . . . . . . . . . . . . . . .

...
...
...
...
...

...
...
...
...
...

...
...
...
...
...

...
...
...
...
...

...
...
...
...
...

...
...
...
...
...

...
...
...
...
...

...
...
...
...
...

...
...
...
...
...

...
...
...
...
...

...
...
...
...
...

..
..
..
..
..

101
101
102
104
107

Propiedades de categora . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108


Generacin de categoras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110
Configuracin avanzada: Lingstica . . . .
Acerca de las tcnicas lingsticas . . . . .
Configuracin avanzada de frecuencia . .
Ampliacin de categoras . . . . . . . . . . . . . . . .

...
...
...
...

...
...
...
...

...
...
...
...

...
...
...
...

...
...
...
...

...
...
...
...

...
...
...
...

...
...
...
...

...
...
...
...

...
...
...
...

...
...
...
...

...
...
...
...

..
..
..
..

113
118
123
125

Creacin manual de categoras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129


Creacin de categoras nuevas o cambio de nombre de categoras . . . . . . . . . . . . . . . . . . . 130
Creacin de categoras mediante el mtodo de arrastrar y soltar. . . . . . . . . . . . . . . . . . . . . 131
Importacin y exportacin de categoras predefinidas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131
Importacin de categoras predefinidas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132
Exportacin de categoras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142
Uso de reglas de categora . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145
Sintaxis de regla de categora . . . . . . . . . . . . . . .
Uso de patrones TLA en las reglas de categora. .
Uso de comodines en reglas de categora . . . . . .
Ejemplos de reglas de categora . . . . . . . . . . . . .
Creacin de reglas de categora . . . . . . . . . . . . .
Edicin y eliminacin de reglas . . . . . . . . . . . . . .
Edicin y refinamiento de categoras . . . . . . . . . . . . .

...
...
...
...
...
...
...

...
...
...
...
...
...
...

...
...
...
...
...
...
...

...
...
...
...
...
...
...

...
...
...
...
...
...
...

...
...
...
...
...
...
...

...
...
...
...
...
...
...

...
...
...
...
...
...
...

...
...
...
...
...
...
...

...
...
...
...
...
...
...

..
..
..
..
..
..
..

146
148
150
151
153
155
156

Edicin de las propiedades de las categoras.


Aadir descriptores a las categoras . . . . . . .
Edicin de descriptores de categora. . . . . . .
Cmo mover categoras . . . . . . . . . . . . . . . . .
Fusin o combinacin de categoras . . . . . . .
Forzado de respuestas dentro de categoras .
Coincidencia de texto en las categoras. . . . .

...
...
...
...
...
...
...

...
...
...
...
...
...
...

...
...
...
...
...
...
...

...
...
...
...
...
...
...

...
...
...
...
...
...
...

...
...
...
...
...
...
...

...
...
...
...
...
...
...

...
...
...
...
...
...
...

...
...
...
...
...
...
...

...
...
...
...
...
...
...

..
..
..
..
..
..
..

156
157
158
159
160
161
162

vii

...
...
...
...
...
...
...

Copia de categoras. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 164


Impresin de categoras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 164
Eliminacin de categoras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 166

Visualizacin de grficos

167

Grfico de barras de categoras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 168


Grfico de malla de categoras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169
Tabla de malla de categoras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 170
Uso de barras de herramientas y paletas de grficos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 170
Edicin de visualizaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171
Reglas generales de edicin de visualizaciones. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Edicin y formato de texto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Cambio de colores, tramas, estilos de guin y transparencia . . . . . . . . . . . . . . . . . . .
Rotacin y cambio de la forma y la relacin de aspecto de los elementos de punto . .
Cambio de tamao de los elementos grficos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Especificacin de mrgenes y relleno . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Formato de numeracin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Cambio de la configuracin del eje y la escala . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Edicin de categoras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Cambio de la orientacin de paneles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Transformacin del sistema de coordenadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Cambio de estadsticos y elementos grficos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Cambio de la posicin de la leyenda . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Copia de una visualizacin y de datos de visualizacin . . . . . . . . . . . . . . . . . . . . . . .
Mtodos abreviados de teclado. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

...
...
...
...
...
...
...
...
...
...
...
...
...
...
...

..
..
..
..
..
..
..
..
..
..
..
..
..
..
..

172
173
174
175
176
177
177
178
180
182
182
183
187
187
188

Parte III: Editor de recursos


8

Plantillas y recursos

190

La interfaz del editor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 191


Creacin y actualizacin de plantillas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 193
Cambio de plantillas de recursos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 194
Administracin de plantillas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 195
Importacin y exportacin de plantillas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 196
Copia de seguridad de los recursos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 197
Importacin de los archivos de recursos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 199

viii

Trabajo con bibliotecas

202

Bibliotecas enviadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 202


Creacin de bibliotecas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 203
Adicin de bibliotecas pblicas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 204
Bsqueda de trminos y tipos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 205
Visin de bibliotecas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 206
Administracin de las bibliotecas locales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 206
Cambio de nombre de las bibliotecas locales.
Desactivacin de bibliotecas locales . . . . . . .
Eliminacin de bibliotecas locales . . . . . . . . .
Administracin de bibliotecas pblicas. . . . . . . . .

...
...
...
...

...
...
...
...

...
...
...
...

...
...
...
...

...
...
...
...

...
...
...
...

...
...
...
...

...
...
...
...

...
...
...
...

...
...
...
...

...
...
...
...

..
..
..
..

206
207
207
208

Compartimiento de bibliotecas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 210


Publicacin de bibliotecas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 211
Actualizacin de bibliotecas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 212
Resolucin de conflictos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 213

10 Acerca de los diccionarios de biblioteca

215

Diccionarios de tipo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 215


Tipos incorporados . . . . . . . . . . . . . .
Creacin de tipos. . . . . . . . . . . . . . . .
Adicin de trminos. . . . . . . . . . . . . .
Forzado de trminos . . . . . . . . . . . . .
Cambio de nombre de los tipos . . . . .
Cmo mover tipos . . . . . . . . . . . . . . .
Desactivacin y eliminacin de tipos .
Diccionarios de sustitucin/sinnimos . . .

...
...
...
...
...
...
...
...

...
...
...
...
...
...
...
...

...
...
...
...
...
...
...
...

...
...
...
...
...
...
...
...

...
...
...
...
...
...
...
...

...
...
...
...
...
...
...
...

...
...
...
...
...
...
...
...

...
...
...
...
...
...
...
...

...
...
...
...
...
...
...
...

...
...
...
...
...
...
...
...

...
...
...
...
...
...
...
...

...
...
...
...
...
...
...
...

...
...
...
...
...
...
...
...

..
..
..
..
..
..
..
..

216
217
219
222
223
224
225
225

Definicin de sinnimos. . . . . . . . . . . . . . . . .
Definicin de elementos opcionales. . . . . . . .
Desactivacin y eliminacin de sustituciones
Diccionarios de exclusin. . . . . . . . . . . . . . . . . . .

...
...
...
...

...
...
...
...

...
...
...
...

...
...
...
...

...
...
...
...

...
...
...
...

...
...
...
...

...
...
...
...

...
...
...
...

...
...
...
...

...
...
...
...

..
..
..
..

227
229
230
231

11 Acerca de los recursos avanzados

233

Bsquedas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 234
Reemplazo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 235
Agrupacin difusa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 236

ix

Entidades no lingsticas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 237


Definiciones de expresiones regulares . .
Normalizacin . . . . . . . . . . . . . . . . . . . . .
Configuracin . . . . . . . . . . . . . . . . . . . . .
Gestin de idiomas . . . . . . . . . . . . . . . . . . . . .

...
...
...
...

...
...
...
...

...
...
...
...

...
...
...
...

...
...
...
...

...
...
...
...

...
...
...
...

...
...
...
...

...
...
...
...

...
...
...
...

...
...
...
...

...
...
...
...

..
..
..
..

238
240
241
242

Patrones de extraccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 242


Definiciones forzadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 243
Abreviaturas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 243

Apndices
A Excepciones de textos en japons

245

Extraccin y categorizacin de textos en japons . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 245


Cmo funciona la extraccin . . . . . . . . . .
Cmo funciona la extraccin secundaria .
Funcionamiento de la categorizacin. . . .
Edicin de recursos para textos en japons . .

...
...
...
...

...
...
...
...

...
...
...
...

...
...
...
...

...
...
...
...

...
...
...
...

...
...
...
...

...
...
...
...

...
...
...
...

...
...
...
...

...
...
...
...

...
...
...
...

..
..
..
..

245
247
250
250

Panel de trminos, de tipos y del rbol de bibliotecas para el japons


Tipos disponibles para textos en japons . . . . . . . . . . . . . . . . . . . . . .
Edicin de las propiedades de tipo del japons . . . . . . . . . . . . . . . . .
Uso del diccionario de sinnimos para textos en japons. . . . . . . . . .
Validacin y compilacin de recursos del japons . . . . . . . . . . . . . . .
Otras excepciones para el japons . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

...
...
...
...
...
...

...
...
...
...
...
...

...
...
...
...
...
...

...
...
...
...
...
...

...
...
...
...
...
...

..
..
..
..
..
..

252
254
258
259
260
261

B Avisos

262

ndice

265

Parte I:
Primeros pasos

Captulo

Acerca del Anlisis de texto

Bienvenido a IBM SPSS Text Analytics for Surveys versin 4.0.1, una aplicacin de
codificacin de texto de encuestas que proporciona un anlisis significativo de las respuestas a las
preguntas con final abierto. Con este producto, cualquiera que realice anlisis de encuestas puede
transformar rpidamente las respuestas no estructuradas en datos cuantitativos. El desbloqueo
de estos datos de texto con final abierto pueden mejorar significativamente la calidad del
anlisis y la capacidad de la toma de decisiones. Esta aplicacin permite importar los datos
de la encuesta, extraer los conceptos clave, refinar los resultados y categorizar las respuestas.
Una vez categorizados los datos, puede exportar las categoras para importarlas en herramientas
analticas cuantitativas, como el sistema IBM SPSS Statistics, para un anlisis y generacin
de grficos ms exhaustivo.
SPSS Text Analytics for Surveys combina las tecnologas lingsticas avanzadas diseadas
para extraer y clasificar con fiabilidad los conceptos clave de las respuestas de las encuestas con
final abierto mediante tcnicas manuales. Gracias a los slidos algoritmos de generacin de
categoras y a la sencilla funcionalidad de arrastrar y soltar, puede crear categoras o cdigos en
los que categorizar las respuestas de las encuestas. Adems, las categoras que se generan podrn
reutilizarse para proporcionar as un resultado coherente en estudios idnticos o similares. Puesto
que los datos de las respuestas con final abierto pueden variar mucho de una encuesta a otra, dos
proyectos nunca sern exactamente iguales; sin embargo, puede seguir el mismo proceso bsico
para llevar a cabo los anlisis. Si desea obtener ms informacin, consulte el tema El proceso
tpico en el captulo 2 el p. 10.

Novedades
En IBM SPSS Text Analytics for Surveys4.0.1 puede encontrar las siguientes funciones
nuevas:
Categoras jerrquicas. Ahora las categoras pueden tener una estructura jerrquica, lo que

significa que pueden contener subcategoras y estas subcategoras pueden tambin tener sus
propias subcategoras y as sucesivamente. Puede importar estructuras de categoras predefinidas,
antes denominadas marcos de cdigo, con categoras jerrquicas as como crear estas categoras
jerrquicas en el producto.
De hecho, las categoras jerrquicas le permiten crear una estructura de rbol con una o ms
subcategoras para agrupar elementos como reas de temas o conceptos diferentes de manera ms
precisa. Un ejemplo sencillo puede estar relacionado con actividades de ocio; al responder a una
pregunta como Qu actividad le gustara hacer si tuviera ms tiempo?, puede tener categoras
principales como deportes, actividades artsticas, pesca, etc.; bajando un nivel, debajo de deportes,
puede tener subcategoras para determinar si son juegos con pelota, deportes acuticos, etc.
Acceso a Language Weaver. El modo de acceso a la interfaz de traduccin de Language Weaver se

ha simplificado para utilizar una nica URL y detalles de seguridad asociados.


Copyright IBM Corporation 2004, 2011.

2
Captulo 1

Datos de encuestas con final abierto


Los cuestionarios de las encuestas suelen contener distintos tipos de preguntas, incluidas aquellas
con final abierto y cerrado. Una pregunta con final cerrado presenta un conjunto limitado de
respuestas que permite varios tipos de anlisis cuantitativos. Una pregunta con final abierto
permite que el encuestado aporte una respuesta no estructurada de longitud y grado de detalle
variable.
Las palabras que la gente utiliza para responder una pregunta aportan mucha informacin sobre
su opinin. Estas son las razones por las que a menudo se incluyen preguntas con final abierto
en las encuestas: proporcionan informacin ms variada y matizada que las preguntas con final
cerrado, y a menudo ofrecen una perspectiva que el diseador de la encuesta no pudo anticipar.
Sin embargo, el uso de un mayor nmero de preguntas con final abierto siempre se ha
considerado econmicamente muy costoso, porque implica un sobreesfuerzo a la hora de
interpretar las respuestas. Adems, estas respuestas largas deben codificarse de una manera
estandarizada, empleando un conjunto detallado de instrucciones de codificacin. Esta tarea
puede resultar difcil porque no siempre los codificadores se ponen de acuerdo a la hora de
categorizar respuestas especficas. Cuando los codificadores discrepan entre s, la fiabilidad de
los resultados disminuye. Por todas estas razones, la codificacin de respuestas con final abierto
se ha considerado siempre un factor que aumenta costes y tiempo que sobrepasa los beneficios
derivados de la recopilacin de datos.
IBM SPSS Text Analytics for Surveys ofrece una alternativa a este costoso procedimiento,
puesto que puede afrontar la codificacin de respuestas con final abierto en un perodo de tiempo
menor del que se emplea manualmente. Mediante el uso de tcnicas y teoras lingsticas
avanzadas, SPSS Text Analytics for Surveys analiza el texto de las respuestas con final abierto
como conjuntos de frases y oraciones cuya estructura gramatical ofrece contexto para el
significado de una respuesta. Despus de analizar el texto, los conceptos clave y los patrones de
palabra se extraen y clasifican en categoras.
Puede utilizar las tcnicas incorporadas de generacin de categoras para crear automticamente
categoras y tcnicas manuales para ajustar los resultados. La fiabilidad de los resultados aumenta
considerablemente, puesto que la extraccin y categorizacin siempre se realiza de una forma
coherente y repetitivala misma respuesta se categoriza cada vez en las mismas categoras, a
menos que opte por ajustar las definiciones de categoras o las bibliotecas lingsticas.
El anlisis exitoso de la encuesta no depende solamente de un mtodo. La naturaleza subjetiva
de la interpretacin de las respuestas con final abierto demanda el uso de mltiples tcnicas.
Adems de estas tcnicas incorporadas de extraccin y generacin de categoras, SPSS Text
Analytics for Surveys tambin se basa en la forma en que el usuario se toma los objetivos del
anlisis del texto de cada encuesta. El anlisis del texto es ms potente cuando se realiza de una
manera repetitiva (extraer, revisar, refinar, volver a extraer), y su grado de utilidad a menudo
depender de la cantidad de tiempo y esfuerzo que se dedique en revisar y refinar manualmente
los resultados de la extraccin y las definiciones de categoras. Si desea obtener ms informacin,
consulte el tema Fiabilidad y ajuste el p. 8.
Si trabaja con preguntas idnticas o similares en encuestas recurrentes, podr volver a utilizar
las categoras en otras preguntas o proyectos. La reutilizacin de categoras aumenta en gran
medida la coherencia en la codificacin, y supone un gran ahorro de tiempo y esfuerzo.

3
Acerca del Anlisis de texto

Tambin es posible realizar otros anlisis. Las categoras que genere pueden utilizarse
en diversos tipos de anlisis estadsticos con las otras preguntas del cuestionario o con otros
datos demogrficos para tener ms puntos de vista sobre los encuestados, sus opiniones y
comportamientos. Despus de utilizar SPSS Text Analytics for Surveys para detectar las
categoras que subyacen en un conjunto de respuestas, tambin puede exportar las categoras para
realizar otros anlisis cuantitativos en otros programas, como IBM SPSS Statistics Base.

Acerca de la minera de datos de texto


El anlisis de texto, un tipo de anlisis cualitativo, es la extraccin de informacin til del texto
(como respuestas con final abierto) de manera que las ideas o los conceptos clave que contiene el
texto pueden agruparse en una serie de categoras apropiadas. El anlisis del texto puede realizarse
en textos de cualquier tipo y longitud, aunque el enfoque del anlisis puede ser diferente.
Los registros ms breves se categorizan con mayor facilidad, porque no son tan complejos y
suelen tener menos palabras y respuestas ambiguas. Por ejemplo, una encuesta con preguntas
breves con final abierto; si pedimos a la gente que nombre sus tres actividades vacacionales
favoritas, podemos esperar muchas respuestas cortas del tipo ir a la playa, visitar parques
nacionales o no hacer nada. Las respuestas ms largas con final abierto, por otro lado, pueden
ser bastante complejas y muy largas, sobre todo si los encuestados son cultos, estn motivados y
tienen tiempo suficiente para completar un cuestionario. Si pedimos a la gente que nos hable sobre
sus creencias polticas en una encuesta, o que participen en un blog sobre poltica, encontraremos
comentarios ms largos sobre todo tipo de temas y posturas.
Los investigadores de encuestas no suelen analizar las respuestas muy largas. Las respuestas
en la mayora de las encuestas tienden a tener una extensin entre breve y mediana (desde una
frase a un prrafo corto). IBM SPSS Text Analytics for Surveys se dise para poder manejar
extensiones de texto como stas pero puede analizar respuestas mucho ms largas.
Existen varios mtodos distintos para analizar texto. En primer lugar, est el mtodo manual:
hacer que la gente lea las respuestas de la encuesta, que anoten los contenidos, determinen los
conceptos clave que contienen y les asignen cdigos. Puesto que la gente suele comprender bien
el texto, este mtodo es bastante preciso. Pero se invierte mucho tiempo, supone bastante esfuerzo
y, dado el cada vez mayor volumen de textos actualmente disponibles, es muy poco prctico. Este
mtodo tambin se basa mayoritariamente en la interpretacin de cada codificador.
Otro mtodo es emplear soluciones automticas. Hay muchas soluciones automticas diferentes
entre las que elegir, entre las que se incluyen soluciones estadsticas y lingsticas. SPSS Text
Analytics for Surveys ofrece una combinacin de tcnicas lingsticas y estadsticas automticas
para sacar el mximo partido a los resultados ms fiables de cada etapa del proceso. En este
producto, las tcnicas basadas en la lingstica se utilizan para extraer automticamente los
conceptos clave a partir de las respuestas, y pueden utilizarse tanto tcnicas lingsticas como
estadsticas para crear las definiciones (cdigos) de categora que se asignan a las respuestas.

Cmo funciona la extraccin


Durante la extraccin de los conceptos e ideas clave de las respuestas, IBM SPSS Text
Analytics for Surveys se basa en el anlisis de texto basado en lingstica. Este mtodo ofrece la
velocidad y la rentabilidad propia de los sistemas basados en estadsticas. Pero ofrece un grado
de precisin mucho mayor, y con menos intervencin humana. El anlisis de texto basado en

4
Captulo 1

lingstica se basa en el mbito de estudio conocido como proceso de idioma natural, conocido
tambin como lingstica computacional.
Para ilustrar la diferencia entre los mtodos basados en estadsticas y en lingstica durante
el proceso de extraccin, considere cmo respondera cada uno a una pregunta sobre la
reproduccin de documentos. Tanto las soluciones basadas en estadsticas como en
lingstica tendran que ampliar la palabra reproduccin para que incluyera sinnimos como
copia y duplicacin. De lo contrario, se pasara por alto informacin relevante. Pero si la
solucin basada en estadsticas intenta realizar este tipo de sinonimiabuscar otros trminos
con el mismo significadoprobablemente incluira el trmino nacimiento, lo que generara
resultados irrelevantes. La comprensin del idioma reduce la ambigedad del texto, lo que
convierte a la minera de texto basada en lingstica, por definicin, en el mtodo ms fiable.
Comprender el funcionamiento del proceso de extraccin puede ayudarle a tomar decisiones
clave a la hora de ajustar los recursos lingsticos (bibliotecas, tipos, sinnimos, etc.). Estos son
los pasos del proceso de extraccin:

Conversin de datos de origen en un formato estndar

Identificar los trminos candidatos

Identificar las clases de equivalencias y la integracin de sinnimos

Asignar un tipo

Crear ndices

Extraer patrones y eventos de relaciones

Paso 1. Conversin de datos de origen en un formato estndar

En este primer paso, los datos que se importan se convierten en un formato uniforme que puede
utilizarse para realizar otros anlisis. Esta conversin se lleva a cabo internamente y no cambia
los datos originales.
Paso 2. Identificar los trminos candidatos

Es importante comprender el rol de los recursos lingsticos en la identificacin de los trminos


candidatos durante la extraccin lingstica. Los recursos lingsticos se utilizan siempre que se
ejecuta una extraccin. Existen en forma de plantillas, bibliotecas y recursos compilados. Las
bibliotecas incluyen listas de palabras, relaciones y otra informacin que se utiliza para especificar
o ajustar la extraccin. Estos recursos compilados no se pueden ver ni editar. Sin embargo, los
recursos restantes (plantillas) s pueden editarse en el Editor de recursos.
Los recursos compilados son los componentes internos principales del motor de extraccin en
IBM SPSS Text Analytics for Surveys. Estos recursos incluyen un diccionario general que
contiene una lista de formatos base con un cdigo de categora lxica (sustantivo, verbo, adjetivo,
adverbio, participio, conjuncin, determinante o preposicin). Los recursos tambin incluyen
tipos incorporados reservados que se utilizan para asignar muchos trminos extrados a los tipos
siguientes: <Location>, <Organization>, o <Person>. Si desea obtener ms informacin,
consulte el tema Tipos incorporados en el captulo 10 el p. 216.
Adems de los recursos compilados, se entregan varias bibliotecas con el producto y pueden
utilizarse para complementar los tipos y las definiciones de conceptos en los recursos compilados,
as como para ofrecer otros tipos y sinnimos. Estas bibliotecasy las bibliotecas personalizadas
que haya creadose componen de varios diccionarios. Entre ellos estn los diccionarios de

5
Acerca del Anlisis de texto

tipo, los diccionarios de sustitucin (sinnimos y elementos opcionales) y los diccionarios de


exclusin. Si desea obtener ms informacin, consulte el tema Trabajo con bibliotecas en el
captulo 9 el p. 202.
Una vez importados y convertidos los datos, el motor de extraccin empezar a identificar
los trminos candidatos para la extraccin. Los trminos candidatos son palabras o grupos de
palabras que se utilizan para identificar conceptos en el texto. Durante el proceso del texto, las
palabras simples (unitrminos) que no estn en los recursos compilados se consideran como
extracciones de trminos candidatos. Las palabras compuestas candidatas (multitrminos) se
identifican mediante extractores de patrones de categoras lxicas. Por ejemplo, el multitrmino
coche deportivo, que responde al patrn de categora lxica sustantivo adjetivo, tiene dos
componentes. El multitrmino coche deportivo veloz, que responde al patrn de categora
lxica sustantivo adjetivo adjetivo, tiene tres componentes.
Nota: los trminos del diccionario general compilado arriba mencionado representan una lista de
todas las palabras que probablemente no resultan relevantes o que son lingsticamente ambiguas,
como los unitrminos. Estas palabras se excluyen de la extraccin cuando se estn identificando
los unitrminos. Sin embargo, volvern a evaluarse cuando determine las categoras lxicas no
cuando busque palabras compuestas candidatas ms largas (multitrminos).
Por ltimo, se utiliza un algoritmo especial para gestionar las cadenas de letras en maysculas,
como cargos laborales, de manera que estos patrones especiales pueden extraerse.
Paso 3. Identificar las clases de equivalencias y la integracin de sinnimos

Una vez identificados los unitrminos y los multitrminos candidatos, el software emplea un
conjunto de algoritmos para compararlos y para identificar clases de equivalencias. Una clase
de equivalencia es la forma bsica de una frase o una forma simple de dos variantes de la
misma frase. El propsito de asignar frases a las clases de equivalencias es asegurarse de que,
por ejemplo, presidente de la compaa y la compaa y su presidente no se
consideren conceptos separados. Para determinar qu concepto se va a utilizar para la clase de
equivalenciaes decir, cul de las dos opciones, presidente de la compaa o bien la
compaa y su presidente se utiliza como trmino principal, el motor de extraccin aplica
las reglas siguientes en el orden que aparece:

La forma especificada por el usuario en una biblioteca.

La forma ms frecuente en el cuerpo completo del texto.

La forma ms corta en el cuerpo completo del texto (que generalmente se corresponde a la


forma bsica).

Paso 4. Asignar un tipo

A continuacin, se asignan tipos a los conceptos extrados. Un tipo es una agrupacin semntica
de conceptos. En este paso se utilizan tanto los recursos compilados como las bibliotecas. Los
tipos incluyen elementos como conceptos de nivel ms alto, palabras positivas y negativas,
nombres propios, lugares, organizaciones, etc. El usuario puede definir tipos adicionales. Si desea
obtener ms informacin, consulte el tema Diccionarios de tipo en el captulo 10 el p. 215.
Paso 5. Crear ndices

6
Captulo 1

Se crea el ndice del conjunto completo de registros estableciendo un marca entre una posicin
de texto y el trmino representativo de cada clase de equivalencia. De esta manera se presupone
que todos los casos de la forma declinada de un concepto candidato se indexa como forma bsica
candidata. Para cada forma bsica se calcula la frecuencia global.
Paso 6. Extraer patrones y eventos de relaciones

IBM SPSS Text Analytics for Surveys puede detectar no solamente tipos y conceptos, sino
tambin las relaciones entre ellos. Hay varios algoritmos y bibliotecas disponibles en el producto
que proporcionan la capacidad de extraer patrones de relaciones entre tipos y conceptos. Son
particularmente tiles cuando se intentan detectar opiniones especficas (por ejemplo, reacciones
ante productos) o los enlaces relacionales entre personas y objetos (por ejemplo, enlaces entre
grupos polticos o genomas).

Funcionamiento de la categorizacin
Existen varias tcnicas diferentes entre las que puede escoger para crear categoras. Puesto que
cada conjunto de datos es exclusivo, el nmero de tcnicas y el orden en el que las aplica puede
cambiar con el tiempo. Puesto que su interpretacin de los resultados puede ser diferente de la
interpretacin de otros, puede que deba experimentar con diferentes tcnicas para comprobar con
cul de ellas se obtiene el mejor resultado para los datos del texto.
En esta gua, la generacin de categoras hace referencia a la generacin de definiciones de
categora y clasificacin mediante el uso de una o ms tcnicas incorporadas, y categorizacin
hace referencia al proceso de puntuacin o etiquetaje por el que se asignan identificadores
exclusivos (nombre/ID/valor) a las definiciones de categoras para cada registro.
Durante la generacin de categoras, los conceptos y los tipos que se extrajeron se utilizan como
los cimientos para las categoras. Cuando crea categoras, los registros se asignan automticamente
a categoras si contienen texto que coincida con un elemento de una definicin de categora.
IBM SPSS Text Analytics for Surveys ofrece varias tcnicas automticas de generacin de
categoras para ayudarle a categorizar los registros rpidamente.
Agrupacin de tcnicas

Cada una de las tcnicas disponibles resulta idnea para determinados tipos de datos y situaciones,
pero a menudo conviene combinar tcnicas en el mismo anlisis para capturar el rango completo
de registros. Puede ver un concepto en diversas categoras o detectar categoras redundantes.
Derivacin de raz de conceptos. Esta tcnica crea categoras tomando un concepto y buscando
otros conceptos que estn relacionados con el primero analizando si alguno de los componentes de
los conceptos estn morfolgicamente relacionados o comparten races. Esta tcnica es muy til
para identificar conceptos de palabras compuestas sinnimas, puesto que los conceptos de cada
categora generada son sinnimos o tienen un significado muy similar. Funciona con datos de
extensin diversa y genera un nmero ms reducido de categoras compactas. Por ejemplo, el
concepto ocasiones de progreso se agrupara con los conceptos ocasin de progresar
y ocasin de progresin. Si desea obtener ms informacin, consulte el tema Derivacin de
raz de conceptos en el captulo 6 el p. 118.

7
Acerca del Anlisis de texto

Red semntica. Esta tcnica comienza identificando los posibles sentidos de cada concepto a partir

de un amplio ndice de relaciones de palabras, y luego crea categoras agrupando los conceptos
relacionados. Esta tcnica resulta idnea cuando los conceptos son conocidos en la red semntica
y no son muy ambiguos. Es menos idnea si el texto contiene terminologa especfica o jerga
desconocida en la red. Por ejemplo, el concepto manzana golden se podra agrupar con
manzana reineta y manzana fuji puesto que son familia de la golden. En otro ejemplo,
el concepto animal se agrupara con gato y canguro puesto que ambos son hipnimos de
animal. En esta versin esta tcnica est disponible solo para texto en ingls. Si desea obtener
ms informacin, consulte el tema Redes semnticas en el captulo 6 el p. 121.
Inclusin de conceptos. Esta tcnica genera categoras agrupando los conceptos multitrmino

(palabras compuestas) basndose en si contienen palabras que son subconjuntos o superconjuntos


de una palabra en la otra. Por ejemplo, el concepto seguridad estara agrupado en asiento
de seguridad, cinturn de seguridad y silla infantil de seguridad. Si desea
obtener ms informacin, consulte el tema Inclusin de conceptos en el captulo 6 el p. 120.
Co-ocurrencia. Esta tcnica crea categoras a partir de las co-ocurrencias que se encuentran en
el texto. La idea radica en que cuando en los documentos y registros a menudo se encuentran
conceptos o patrones de conceptos que aparecen juntos, esa co-ocurrencia refleja una relacin
subyacente que probablemente sea valiosa para las definiciones de categoras. Cuando la
co-ocurrencia de algunas palabras es significativa, se crea una regla de co-ocurrencia que puede
utilizarse como un descriptor de categora para una nueva subcategora. Por ejemplo, si muchos
registros contienen las palabras precio y disponibilidad (pero hay pocos registros que
contengan slo una de las dos), estos conceptos se podran agrupar en una regla de co-ocurrencia,
(precio &disponible) y asignarse a una subcategora de la categora precio por ejemplo.Si
desea obtener ms informacin, consulte el tema Reglas de co-ocurrencia en el captulo 6 el p. 122.

Nmero mnimo de registros Para ayudar a determinar la relevancia de las co-ocurrencias,

defina el nmero mnimo de registros registros que deben contener una co-ocurrencia
determinada para que se utilice como descriptor en una categora.

Preparacin para el anlisis del texto


El anlisis de texto implica algo ms que extraer y categorizar. Para analizar el texto
satisfactoriamente, tenga en cuenta los puntos siguientes:

Al igual que ocurre en el diseo de las encuestas, la calidad de las respuestas que se
importan a IBM SPSS Text Analytics for Surveys afecta directamente a la calidad de las
categorizaciones resultantes. En general, las preguntas vagas o confusas conllevan respuestas
que pueden desviarse o divagar y que resultan muy difciles de analizar.

Como ocurre en el anlisis estadstico, el anlisis de texto debe realizarse teniendo muy claros
los objetivos. Antes de empezar cualquier anlisis, debe determinar y reflejar en el estudio
qu es lo que pretende averiguar.

Por ejemplo, supongamos que se realiz una encuesta en una escuela pblica para valorar
la actitud de los padres con relacin a la calidad de la enseanza que estn recibiendo sus
hijos. Durante el anlisis, podemos centrarnos en temas como el nombre de los profesores, los
programas educativos, etc., o bien en identificar y agrupar las opiniones positivas y negativas.
Asimismo, debe definirse el nivel de granularidad necesario para el anlisis, como por ejemplo

8
Captulo 1

agrupar todos los comentarios sobre financiacin conjunta o dividir esta categora en financiacin
por programa. Los cdigos o categoras que creemos debern reflejar el enfoque y los objetivos
de nuestros anlisis.

Lejos de ser un mero anlisis estadstico, el anlisis de texto no es una ciencia exacta, puesto
que no existe un resultado correcto. El anlisis de texto se realiza teniendo presentes los
objetivos, pero tambin es subjetivo en tanto que est influido por la interpretacin que el
analista hace de la opinin del encuestadopor ejemplo, cmo se identifica y se clasifican
opiniones sarcsticas. En funcin de los objetivos y del enfoque, dos empleados competentes
pueden analizar los mismos datos y alcanzar diferentes conclusiones.

El anlisis de texto es, en gran medida, un proceso repetitivo. A medida que se trabaja con
las respuestas de la encuesta, se vuelven a extraer y a categorizar las respuestas utilizando
diferentes definiciones de categora (es decir, esquemas de codificacin), diferentes
definiciones de sinnimos o conceptos, y diferentes agrupaciones de respuestas.

Una vez extrados los conceptos del texto y creadas las categoras, los resultados deben examinarse
con detenimiento. Si se encuentran elementos que desee ajustar, adapte el anlisis reajustando
las definiciones de categora y de biblioteca lingstica. Entonces las respuestas se volvern a
categorizar automticamente cuando las extraiga de nuevo. Puede que tenga que llevar a cabo este
proceso tantas veces como sea necesario hasta que est conforme con los resultados del anlisis.
Nota: Para obtener ms informacin sobre las consideraciones a tener en cuenta antes de importar
datos, consulte Preparacin de los datos el p. 27

Fiabilidad y ajuste
Cuando codifique los datos querr que las categoras resultantes sean fiables. En el contexto de
codificacin de respuestas con final abierto, esto significa que dos codificadores independientes
que utilicen las mismas reglas (marco de codificacin) codificarn de forma idntica una misma
respuesta. Cuando el anlisis de texto se hace manualmente, esto puede convertirse en un
problema grave. Puede crearse un valioso conjunto de categoras, pero si no pueden aplicarse
con fiabilidad a las respuestas, su valor disminuye considerablemente. Cuando se aplica IBM
SPSS Text Analytics for Surveys a los mismos datos y con los mismos recursos lingsticos,
siempre reproduce a la perfeccin un anlisis anterior. Esto significa que es un 100% fiable.
Sin embargo, esto no significa que no haya errores en el anlisis, sino que el enfoque en
la codificacin puede cambiar por otroajuste. En el proceso de codificacin humana, los
codificadores leen la respuesta y pueden capturar todos los matices de una frase (aunque tengan
dificultades para aplicar las categoras de codificacin). SPSS Text Analytics for Surveys puede
aplicar las categoras de clasificacin, pero stas deben estar definidas para que puedan captarse
los matices y las diferencias. Existen dos formas de realizar el ajuste:

Refinar los recursos lingsticos

Refinar las definiciones de categora

9
Acerca del Anlisis de texto

Refinamiento de los recursos lingsticos


IBM SPSS Text Analytics for Surveys crea fcilmente categoras sin necesidad de que usted
intervenga, pero no capturar toda la informacin de las respuestas. Necesitar mejorar la base
lingstica que utiliza el programa para que la creacin de categoras se adapte cada vez mejor
a las idiosincrasias del texto. Para mejorar esta base, puede personalizar y ajustar los recursos
lingsticos que se utilizan a la hora de realizar la extraccin del texto.
El ajuste, en este caso, implica aadir palabras y frases a varios diccionarios y bibliotecas
lingsticas, especificando palabras para excluirlas del anlisis, definiendo sinnimos o creando
bibliotecas personalizadas teniendo presente un objetivo especfico. Este objetivo radica en
capturar con precisin las ideas del texto de los encuestados y evitar la ambigedad en los
resultados.

Refinamiento de las definiciones de categora


Adems de refinar los recursos lingsticos, debe revisar las categoras y averiguar maneras de
combinar o limpiar las definiciones, as como comprobar algunas de las respuestas categorizadas.
Puede utilizar las tcnicas automticas de generacin de categoras para crear las categoras; sin
embargo, seguramente querr realizar algunos ajustes en estas definiciones. Despus de utilizar
una tcnica, en la ventana aparecern una serie de categoras nuevas. Puede expandir las categoras
para poder ver los conceptos que definen cada categora. Luego puede revisar las respuestas de
una categora y realizar ajustes hasta que est conforme con las definiciones de categora.
Ninguna de las tcnicas automticas categorizar los datos con exactitud, por lo que se
recomienda que busque y aplique una o ms tcnicas automticas que se adapten bien a sus datos.
Luego puede utilizar tcnicas manuales para realizar pequeos ajustes, eliminar clasificaciones
incorrectas o aadir registros o conceptos que pueden haberse dejado de lado.

Captulo

Primeros pasos

Esta documentacin presenta las tareas que puede realizar con IBM SPSS Text Analytics for
Surveys y las tcnicas que puede utilizar para categorizar sus respuestas. La informacin que se
presenta aqu le guiar a travs de su anlisis inicial. Trata sobre todos los procesos necesarios
para analizar sus datos en su totalidad, pero puesto que cada conjunto de datos es diferente, deber
decidir en qu momento el anlisis est completo.
En este captulo, se trata sobre el tpico proceso que los usuarios realizan al llevar a cabo el
anlisis del texto. La interfaz tambin se explica desde una perspectiva de alto nivel junto con
las tareas y los elementos principales con los que va a trabajar.

El proceso tpico
A continuacin se presenta un resumen del proceso de flujo de trabajo tpico que deber realizar
cuando utilice IBM SPSS Text Analytics for Surveys.

Crear un proyecto mediante la importacin de los datos de la encuesta, incluyendo respuestas

con final abierto, una variable de ID y otras variables de referencia en SPSS Text Analytics
for Surveys. Los datos pueden leerse desde los archivos de datos de IBM SPSS Statistics,
Microsoft Excel, cualquier programa de base de datos que utilice ODBC o un origen de
datos de IBM SPSS Data Collection. Puede elegir un paquete de anlisis de texto para
beneficiarse de algunas categoras predefinidas y recursos especializados para comenzar a
trabajar rpidamente.

Extraer conceptos y patrones para cada pregunta con final abierto que importe. El motor

interno de extraccin identifica y recopila automticamente los trminos clave que se expresan
en el texto. Estos trminos se agrupan bajo un concepto principal. Los conceptos luego
se agrupan en tipos, que son recopilaciones de trminos similares, como organizaciones,
productos u opiniones positivas. Tambin se extraen patrones, que representan combinaciones
de trminos y tipos que a su vez representan opiniones y relaciones, como comentarios
positivos sobre una empresa.

Refinar los conceptos extrados y ajustar las extracciones mediante la manipulacin directa

de una o ms bibliotecas que contienen tipos de palabras, trminos, sinnimos, listas de


exclusin y otras construcciones lingsticas. Tal como se mencion anteriormente, el anlisis
del texto es un proceso repetitivo donde el proceso de refinar las bibliotecas y los diccionarios
genera directamente resultados que se ajustan a los datos.

Categorizar las respuestas mediante la creacin y edicin manual de categoras utilizando

reglas de categoras, marcos de cdigo o empleando automticamente tcnicas de generacin


de categoras. Las categoras representan conceptos de mayor nivel que capturan las ideas y
las actitudes principales que expresan los encuestados.

Exportar las categoras junto con la variable de ID a formatos de archivo comunes para la

generacin de grficos y anlisis ms profundos en otras aplicaciones. El resultado puede ser


un conjunto de variables de respuesta mltiple, como un archivo SPSS Statistics o Microsoft
Excel.
Copyright IBM Corporation 2004, 2011.

10

11
Primeros pasos

La ventana Anlisis de texto


La interfaz de la aplicacin est formada por dos ventanas. La primera es la ventana del anlisis
de texto, donde se realiza la mayor parte del trabajo. En esta ventana, puede analizar cada
pregunta en los datos. Para cada pregunta puede extraer conceptos, tipos y patrones, y luego
categorizar sus respuestas.
Cuando inicia la aplicacin, se presenta una pantalla donde puede abrir un proyecto existente o
crear uno nuevo. Si opta por crear un proyecto nuevo, se abre un asistente que le gua a travs del
proceso de creacin del proyecto. Si desea obtener ms informacin, consulte el tema Creacin de
proyectos en el captulo 3 el p. 26.
Figura 2-1
La ventana Anlisis de texto al iniciar el producto

Una vez importados los datos, puede ver lo siguiente: las vistas de Pregunta o la vista Proyecto
completo. Puede cambiar las vistas seleccionando una en la lista desplegable de la barra de
herramientas en la ventana del anlisis de texto, o seleccionando la vista desde el men Ver. El
texto que aparece en el cuadro de lista procede de la etiqueta de la variable de cada pregunta.
Figura 2-2
Barra de herramientas de la aplicacin con la lista desplegable del selector de vistas

12
Captulo 2

La vista Pregunta
La vista Pregunta proporciona un espacio en el que puede analizar y categorizar las respuestas en
una pregunta determinada. Despus de crear un proyecto nuevo, la vista Pregunta aparece con las
respuestas correspondientes a la primera variable de texto con final abierto que ha importado.
Puede seleccionar esta vista desde la lista desplegable o elegir un nombre de pregunta desde
el men Ver > Pregunta >.
Figura 2-3
Vista Pregunta

Las operaciones que puede realizar en la vista Pregunta se concentran en tres elementos:
resultados extrados, categoras y datos de respuesta. Para ayudarle a analizar y trabajar con cada
uno de los elementos independientemente, esta ventana est dividida en cuatro paneles:
Panel Categoras

En el ngulo superior izquierdo, este panel presenta un rea en el que puede crear y administrar las
categoras que genere. Despus de extraer los conceptos, tipos y patrones de los datos de texto,
puede empezar a generar categoras utilizando tcnicas automticas, como redes semnticas e
inclusin de conceptos, o bien puede hacerlo manualmente. Puede pulsar y expandir una categora
para ver todos los descriptores que conforman su definicin, como conceptos, tipos y reglas.
Cuando selecciona una categora o descriptor, puede mostrar la informacin sobre los registros
correspondientes en los paneles Datos y Visualizacin. Si desea obtener ms informacin,
consulte el tema El panel de categoras en el captulo 6 el p. 94.

13
Primeros pasos
Figura 2-4
Panel Categoras: Definicin expandida de categora

Panel Resultados extrados

Situada en el ngulo inferior izquierdo, esta rea presenta los resultados de la extraccin. Cuando
ejecuta una extraccin, el motor de extraccin lee los datos del texto, identifica los conceptos
relevantes y asigna un tipo a cada uno. Los Conceptos son palabras o frases extradas de los
datos del texto. Los Tipos son agrupaciones semnticas de conceptos que se guardan como
diccionarios de tipo. Cuando finaliza la extraccin, los conceptos, tipos y patrones aparecen en el
panel Resultados extrados. Los conceptos y los tipos estn codificados por colores para ayudarle
a identificar a qu tipo pertenecen. Puede utilizar estos conceptos, tipos y patrones que recopile
aqu para generar las categoras. Si desea obtener ms informacin, consulte el tema Resultados
extrados: Conceptos, tipos y patrones en el captulo 5 el p. 78.
Minera de textos es un proceso repetitivo en el que los resultados de la extraccin se revisan de
acuerdo con el contexto de los datos de texto, se ajustan para generar resultados nuevos y luego se
reevalan. Los resultados de la extraccin pueden refinarse modificando los recursos lingsticos.
Este ajuste puede realizarse en parte directamente desde el panel Resultados extrados o Datos,
pero tambin directamente en la vista Editor de recursos. Si desea obtener ms informacin,
consulte el tema La ventana Editor de recursos el p. 15.
Panel Datos

Situado en el ngulo inferior derecho de esta vista, presenta, en formato tabular, los datos de
respuesta correspondientes a la pregunta con final abierto seleccionada. Por defecto, el panel
Datos muestra tres columnas (ID de registro, respuestas de texto y categoras asignadas). El
nmero de respuestas que aparecen en este panel se filtran en funcin de lo que haya seleccionado
en otro panel. Mientras est viendo los datos que ha importado en este panel, no podr editar,
eliminar ni agregar nada en los registros. Si desea obtener ms informacin, consulte el tema El
panel de datos en el captulo 6 el p. 97.

14
Captulo 2

Panel Visualizacin

Situado en el ngulo superior derecho de esta vista, por defecto est oculto. Para que se muestre
este panel, elija Ver > Visualizacin). Este panel ofrece tres vistas exclusivas sobre la forma en
que las respuestas se adaptan a las categoras, y la forma en que las categoras pueden compartir
respuestas (grfico de web, grfico de barras y tabla) segn las opciones que haya seleccionado en
los otros paneles. Si desea obtener ms informacin, consulte el tema Visualizacin de grficos
en el captulo 7 el p. 167.
En funcin de si elige la opcin de extraccin en el Asistente de proyecto nuevo, puede que
aparezcan o no los resultados de la extraccin en el ngulo inferior izquierdo del panel. Pulse en
Extraer en el panel Resultados extrados para comenzar la extraccin. Despus de la extraccin,
puede revisar los resultados para comprobar si es necesario realizar algn ajuste, como la
agrupacin de sinnimos bajo un nombre de concepto, o la exclusin de conceptos comunes y
poco relevantes de la lista.
Una vez satisfecho con los resultados de la extraccin, puede empezar a categorizar las
respuestas manualmente arrastrando y soltando los conceptos como categoras, o utilizando
tcnicas de generacin de categoras, como la inclusin de conceptos y la red semntica.

La vista Proyecto completo


La vista Proyecto completo proporciona una visin general de todas las variables que ha importado
al proyecto. Puede seleccionar esta vista desde la lista desplegable o desde el men Ver > Proyecto
completo. En esta vista, puede revisar los datos que ha importado, cambiar el rol de la variable
(por ejemplo, de pregunta a variable de referencia) y asignar etiquetas a las variables. Si desea
obtener ms informacin, consulte el tema Vista de los datos del proyecto en el captulo 4 el p.
49. Mientras est viendo los datos que ha importado en esta vista, no podr editar, corregir,
eliminar ni agregar nada en los registros.
Nota: Para ver el contenido completo de una casilla de esta vista, pase el ratn por encima de la
casilla. Aparece una etiqueta con informacin sobre el contenido de la casilla.

15
Primeros pasos
Figura 2-5
vista Proyecto completo

La ventana Editor de recursos


IBM SPSS Text Analytics for Surveys captura con rapidez y precisin los conceptos
clave desde los datos de texto utilizando un motor de extraccin robusto. Este motor se basa
principalmente en los recursos lingsticos para dictaminar qu cantidad de datos textuales y sin
estructurar deben analizarse e interpretarse.
La vista del Editor de recursos es el lugar donde puede ver y ajustar los recursos lingsticos
que se utilizan para extraer conceptos, agruparlos bajo tipos, detectar patrones en los datos de
texto y muchas cosas ms. IBM SPSS Text Analytics for Surveys ofrece muchas plantillas de
recursos preconfiguradas. Adems, en algunos idiomas puede utilizar los recursos en paquetes
de anlisis de texto. Si desea obtener ms informacin, consulte el tema Uso de los paquetes
de anlisis de texto en el captulo 3 el p. 41.
Puesto que estos recursos no siempre se adaptan perfectamente al contexto de sus datos, puede
crear, editar y administrar sus propios recursos para un contexto o dominio determinados en el
Editor de recursos. Si desea obtener ms informacin, consulte el tema Trabajo con bibliotecas en
el captulo 9 el p. 202. Es posible que esta ventana se utilice con muy poca frecuencia, pues los
recursos que se entregan con el producto suelen ser suficientes. Adems, gran parte del trabajo
ms sencillo de biblioteca puede realizarse directamente desde el panel de resultados extrados
en la ventana de anlisis de texto.

16
Captulo 2

Para simplificar el proceso de ajuste de los recursos lingsticos, puede realizar las tareas
de diccionario ms comunes directamente en la vista de Text Analytics a travs de los mens
contextuales de los paneles de Datos y de Resultados extrados. Si desea obtener ms informacin,
consulte el tema Refinamiento de los resultados de la extraccin en el captulo 5 el p. 86.
Figura 2-6
Vista del editor de recursos

Las operaciones que realiza en el Editor de recursos se concentran en torno a la administracin


y ajuste de los recursos lingsticos. Estos recursos se almacenan en forma de plantillas y
bibliotecas. La vista del Editor de recursos est organizada en cuatro partes: Panel del rbol
de bibliotecas, panel de diccionarios de tipo, panel del diccionario de sustitucin y panel del
diccionario de exclusin.
La interfaz est organizada en cuatro partes:
1. Panel del rbol de bibliotecas. Situada en el ngulo superior izquierdo, este plan muestra un
rbol con las bibliotecas. Puede activar y desactivar las bibliotecas de este rbol y filtrar las vistas
en los otros paneles seleccionando una biblioteca del rbol. Puede realizar muchas operaciones en
este rbol utilizando los mens contextuales. Si expande una biblioteca en el rbol, podr ver el
conjunto de tipos que contiene. Tambin puede filtrar esta lista a travs del men Ver si desea
centrarse nicamente en una biblioteca determinada.

17
Primeros pasos

2. Listas de trminos del panel Diccionarios de tipo. Situado a la derecha del rbol de bibliotecas,
este panel muestra las listas de trminos de los diccionarios de tipo de las bibliotecas seleccionadas
en el rbol. Un diccionario de tipo es una recopilacin de trminos que se agrupan bajo una
misma etiqueta, tipo o nombre. Cuando el motor de extraccin lee los datos de texto, compara las
palabras que encuentra en el texto con los trminos definidos en los diccionarios de tipo. Si un
concepto extrado aparece como trmino en un diccionario de tipo, se asignar ese nombre de
tipo. Puede considerar que el diccionario de tipo es un diccionario especfico de trminos que
tienen algo en comn. Por ejemplo, el tipo <Location> de la biblioteca Core contiene conceptos
como nueva orleans, gran bretaa y nueva york. Todos estos trminos representan
ubicaciones geogrficas. Una biblioteca puede contener uno o ms diccionarios de tipo. Si desea
obtener ms informacin, consulte el tema Diccionarios de tipo en el captulo 10 el p. 215.
3. Panel del diccionario de exclusin. Situado en el lado derecho, este panel muestra la coleccin
de trminos que se excluirn de los resultados de extraccin finales. Los trminos que aparecen
en este diccionario de exclusin no aparecen en el panel Resultados extrados. Los trminos
excluidos pueden almacenarse en la biblioteca que usted elija. Sin embargo, el panel Diccionario
de exclusin muestra todos los trminos extrados de todas las bibliotecas visibles en el rbol de
bibliotecas.Si desea obtener ms informacin, consulte el tema Diccionarios de exclusin en el
captulo 10 el p. 231.
4. Panel del diccionario de sustitucin. Situado en la parte inferior izquierda, este panel muestra

los sinnimos y los elementos opcionales, cada uno en su propia pestaa. Los sinnimos y los
elementos opcionales ayudan a agrupar trminos similares bajo un concepto principal u objetivo
en los resultados de extraccin finales. Este diccionario puede contener sinnimos conocidos y
sinnimos definidos por el usuario y elementos, as como los errores ortogrficos ms comunes
emparejados con la ortografa correcta. Las definiciones de sinnimos y los elementos opcionales
pueden almacenarse en la biblioteca que elija. Sin embargo, el panel del diccionario de sustitucin
muestra todos los contenidos de todas las bibliotecas visibles en el rbol de bibliotecas. Mientas
que este panel muestra todos los sinnimos o elementos opcionales de todas las bibliotecas,
las sustituciones para todas las bibliotecas del rbol se muestran conjuntamente en este panel.
Una biblioteca puede contener tan solo un diccionario de sustitucin. Si desea obtener ms
informacin, consulte el tema Diccionarios de sustitucin/sinnimos en el captulo 10 el p. 225.
Notas:

Si desea filtrar esta ventana de manera que solo se vea la informacin que pertenece a una
nica biblioteca, puede cambiar la vista de la biblioteca mediante la lista desplegable de la
barra de herramientas. Contiene una entrada de nivel superior llamada Todas las bibliotecas
as como una entrada adicional para cada biblioteca individual. Si desea obtener ms
informacin, consulte el tema Visin de bibliotecas en el captulo 9 el p. 206.

Opciones de configuracin
Puede definir opciones generales para IBM SPSS Text Analytics for Surveys en el cuadro de
dilogo Opciones. Este cuadro de dilogo contiene las siguientes pestaas:
La pestaa Sistema contiene opciones para listas de bibliotecas predeterminadas, guardado
automtico, guardado de resultados de extraccin, delimitadores y el idioma de la interfaz.
La pestaa Mostrar contiene opciones para los colores que se utilizan en la interfaz.

18
Captulo 2

La pestaa Sonidos contiene opciones para las pistas de sonido.


La pestaa Traduccin contiene opciones para las conexiones de traduccin.
Para editar opciones
E En los mens seleccione Herramientas > Opciones. Aparecer el cuadro de dilogo Opciones.
E Seleccione la pestaa que contiene la informacin que desea cambiar.
E Cambie las opciones pertinentes.
E Pulse en Aceptar para guardar los cambios.

Opciones: pestaa Sistema


En esta pestaa, puede definir varias opciones de proyecto, por ejemplo:

Aadir o eliminar bibliotecas que deben aparecer en todos los proyectos nuevos por defecto

Activar o desactivar la funcin de recuperacin de guardado automtico

Activar o desactivar el guardado de los resultados de la extraccin

Definir el delimitador global que se utilizar en Editor de recursos para separar elementos

Figura 2-7
Cuadro de dilogo Opciones: pestaa Sistema

Guardar automticamente el archivo cada n minutos. Seleccione esta opcin para que el producto
cree automticamente una versin provisional guardada del archivo del proyecto abierto en caso
de que se produzca un error en la mquina. Establezca tambin el nmero de minutos entre
cada guardado. Si activa esta funcin y el producto se cierra inesperadamente, o si la mquina

19
Primeros pasos

presenta algn problema, la prxima vez que inicie el producto se le presentar la opcin de abrir
y trabajar con una versin recuperada del archivo.
Guardar resultados de la extraccin. Seleccione esta opcin para guardar los resultados de las
extracciones en el proyecto. Esto puede significar un ahorro de tiempo cuando todava est
trabajando con sus categoras. Sin embargo, puede suponer un tiempo adicional en el momento
de la carga, y puede aumentar el tamao del proyecto. Como medida de seguridad, se realiza un
proceso de cifrado de dichos resultados de extraccin durante el proceso de guardado, y se colocan
en la base de datos. Este procedimiento dificulta la posibilidad de que otro usuario, incluso uno
avanzado, vea los datos de la base de datos. Adems, los resultados de la extraccin nunca se
presentarn en IBM SPSS Text Analytics for Surveys hasta que la aplicacin haya localizado
el origen de datos. De esta manera, si los datos estn protegidos por contrasea, el usuario debe
especificar el nombre de usuario y la contrasea correspondiente al origen de los datos para que
los resultados de la extraccin aparezcan en pantalla.

El hecho de guardar es ms ventajoso por la optimizacin del tiempo. Teniendo en cuenta que
el proceso de extraccin puede tardar en finalizar cuando se trabaja con conjuntos de datos
voluminosos, el hecho de guardarlos le ofrece la posibilidad de acceder a los resultados de
manera inmediata siempre que vuelva a abrir el proyecto. Sin embargo, es probable que
advierta cierta lentitud a la hora de abrir el proyecto.

Se opta por no guardar si no desea que el texto de las respuestas resida en ningn lugar que no
sea el archivo de datos original, aunque cuente con medidas de seguridad.

Editor de recursos Delimitador. Seleccione el carcter que se utilizar como delimitador cuando

introduzca elementos, como trminos, sinnimos y elementos opcionales, en Editor de recursos.


Plantilla de recursos. Si no ha seleccionado un paquete de anlisis de texto, se utilizar un

conjunto de recursos por defecto. Estos recursos se guardan en una plantilla. Pulse en Cambiar
para seleccionar una plantilla de recursos por defecto distinta. A continuacin, en el dilogo
Cambiar plantillas, seleccione la lnea de la plantilla que desea utilizar y pulse en Aceptar.
Utilice la regin del sistema para el idioma de la interfaz de usuario. Seleccione esta opcin para que

SPSS Text Analytics for Surveys utilice los detalles de la regin de su sistema para proporcionar
el idioma utilizado en la interfaz. Como alternativa, puede cancelar la seleccin de esta opcin y, a
continuacin, seleccionar un idioma de interfaz diferente. Por ejemplo, puede hacer esto si est
analizando informacin registrada en un idioma diferente al de la regin de su sistema y quiere
ejecutar SPSS Text Analytics for Surveys en ese idioma.
Tenga en cuenta que los cambios realizados en esta opcin no surtirn efecto hasta que no reinicie
SPSS Text Analytics for Surveys.

Opciones: Pestaa Mostrar


En esta segunda pestaa, puede editar las opciones que inciden en el aspecto y el funcionamiento
general de la aplicacin, y los colores que se utilizan para distinguir los elementos.

20
Captulo 2
Figura 2-8
Cuadro de dilogo Opciones: Pestaa Mostrar

Fuentes y colores estndar (aplicados tras el reinicio). Las opciones de este cuadro de control se

utilizan para especificar la combinacin de colores y el aspecto que se muestra. Las opciones
seleccionadas aqu se aplican tras cerrar y reiniciar la aplicacin. Seleccione entre:

SPSS estndar (predeterminado), diseo comn en los productos de la marca SPSS (parte

de IBM Corp.).

SPSS clsico, diseo conocido para los usuarios de versiones anteriores de esta aplicacin.

Microsoft Windows, diseo de Microsoft Windows que puede ser de utilidad para aumentar el

contraste en lienzos y paletas de ruta.


Colores personalizados. Edite los colores de los elementos que aparecen en pantalla. Para cada
uno de los elementos de la tabla, puede cambiar el color. Para especificar un color personalizado,
pulse en el rea de color a la derecha del elemento que desea cambiar y elija un color en la lista
desplegable de colores.

Texto no extrado. Texto de respuesta que no se extrajo y que sigue visible en el panel Datos.

Resaltar fondo. Color de fondo del texto seleccionado al seleccionar elementos en los paneles

o texto en el panel Datos.

Fondo de extraccin necesaria. Color de fondo del panel Resultados extrados que indica que

se han realizado cambios en las bibliotecas y que se necesita una extraccin.

Fondo de comentario de categora. Color de fondo de la categora que aparece despus de

una operacin, como arrastrar y soltar respuestas y forzar respuestas desde el panel Datos
al panel Categoras.

Tipo por defecto. Color por defecto para los tipos y trminos que aparecen en el panel Datos y

en el panel Resultados extrados. Este color aparece en la interfaz siempre que aparece el
tipo Unknown o cualquier otro concepto asociado. Este color tambin se aplica a los tipos

21
Primeros pasos

personalizados que se crean en el Editor de recursos. Puede cambiar este color por defecto
para sus diccionarios de tipo personalizado editando las propiedades de los mismos en
Editor de recursos. Si desea obtener ms informacin, consulte el tema Creacin de tipos en
el captulo 10 el p. 217.

Tabla con bandas 1. El primero de los dos colores utilizados de forma alternativa en la tabla del

cuadro de dilogo Editar trminos forzados para diferenciar cada lnea.

Tabla con bandas 2. El segundo de los dos colores utilizados de forma alternativa en la tabla

del cuadro de dilogo Editar trminos forzados para diferenciar cada lnea.

Mscara no vlida. Color del texto de entradas duplicadas en el Administrador de marcos de

cdigo, que indica un error.

Fondo no vlido. Color del fondo resaltado de las entradas duplicadas en el Administrador

de marcos de cdigo, que indica un error.


Orden de colores de visualizaciones. Si utiliza el grfico de barras de categora en el panel de

visualizacin y selecciona tambin una variable de referencia, puede ver cada uno de los valores
posibles correspondientes a la variable de referencia en una leyenda al final del panel. Cada valor
tambin est codificado por color para ayudarle a distinguirlo visualmente en el grfico de barras.
Puede cambiar estos colores por defecto aqu. Si desea obtener ms informacin, consulte el tema
Visualizacin de grficos en el captulo 7 el p. 167.

Opciones: pestaa Sonidos


En esta pestaa, puede editar los sonidos que se utilizan en el producto. En Eventos de sonido
puede especificar que se utilice un sonido para notificar que ha ocurrido un evento. Mediante la
activacin y desactivacin de los sonidos o la asignacin de sonidos especficos, puede controlar
la forma en que recibir los avisos de determinadas operaciones del software. Por ejemplo, puede
activar sonidos para eventos como el final del proceso de extraccin, el final de una tcnica de
categorizacin automtica, o tareas ms comunes, como cortar, pegar, copiar y eliminar.

22
Captulo 2
Figura 2-9
Cuadro de dilogo Opciones: pestaa Sonidos

Hay numerosos sonidos disponibles. Utilice el botn de puntos suspensivos (...) para buscar y
seleccionar un sonido. Los archivos .wav utilizados para crear sonidos en IBM SPSS Text
Analytics for Surveys se almacenan en el subdirectorio /media del directorio de instalacin. Si
no desea que se reproduzca ningn sonido, seleccione Silenciar todos los sonidos. Los sonidos
estn silenciados por defecto.

Opciones: pestaa Traduccin


Importante: La traduccin slo est disponible en ingls.

En esta pestaa puede definir y gestionar la conexin del servidor de traduccin Language Weaver
que podr reutilizar cuando traduzca. Una vez que defina aqu una conexin, podr seleccionar
rpidamente una conexin de par de idiomas en el momento de la traduccin sin necesidad de
volver a introducir toda la configuracin de conexin.
Una conexin de par de idiomas identifica los idiomas de origen y de traduccin as como los
detalles de URL de conexin del servidor. Por ejemplo, Chino - Ingls significa que el texto de
origen est en chino y la traduccin final estar en ingls. Debe definir manualmente la conexin
del servidor Language Weaver al que accede mediante los servicios en lnea de Language Weaver.
Las traducciones finales se almacenan en el directorio definido en este cuadro de dilogo.
Puede administrar sus archivos de traduccin directamente en ese directorio y/o especificar un
directorio distinto aqu.

23
Primeros pasos
Figura 2-10
Cuadro de dilogo Opciones: Pestaa Traduccin

URL de conexin. Introduzca la URL del servidor o la direccin Web en el servidor en lnea
Language Weaver.
ID de usuario. Introduzca el ID exclusivo que le haya proporcionado Language Weaver.
Clave de API. Introduzca la clave que le haya proporcionado Language Weaver.
Comprobar. Pulse en Comprobar para verificar que la conexin se ha configurado adecuadamente y

para ver los pares de idiomas que se han encontrado en esa conexin.
Directorio de traduccin. Pulse Examinar para cambiar a un directorio distinto o escriba

directamente la ruta de la carpeta en el campo.


Figura 2-11
Mensaje de conexin correcto

Configuracin de Microsoft Internet Explorer para obtener ayuda


Configuracin de Microsoft Internet Explorer

La mayora de las funciones de ayuda de esta aplicacin utilizan tecnologa basada en Microsoft
Internet Explorer. Algunas versiones de Internet Explorer (incluida la versin que se incluyen con
Microsoft Windows XP, Service Pack 2) bloquearn por defecto lo que se consideren contenidos

24
Captulo 2

activos en las ventanas de Internet Explorer de su ordenador local. Esta configuracin por
defecto puede hacer que se bloqueen algunos contenidos de las funciones de ayuda. Para ver todos
los contenidos de ayuda, puede cambiar el comportamiento por defecto de Internet Explorer.
E Elija en los mens de Internet Explorer, seleccione:
Herramientas > Opciones de Internet...
E Pulse en la pestaa Opciones avanzadas.
E Desplcese hacia abajo hasta la seccin Seguridad.
E Seleccione (marque) Permitir que el contenido activo se ejecute en archivos de Mi PC.

Parte II:
Anlisis de texto

Captulo

Creacin de proyectos y paquetes

Creacin de proyectos
En IBM SPSS Text Analytics for Surveys, trabajar con datos de encuestas que podr
categorizar. Para ello, crear proyectos en los que importar datos desde el origen de datos,
seleccionar algunas variables y elegir categoras y recursos. Una vez que haya creado el
proyecto, puede ajustar los recursos y las categoras hasta que est conforme con el conjunto final
de categoras. Un proyecto puede contener los elementos siguientes: datos de la encuesta, recursos
lingsticos, resultados extrados y categoras.
Datos de la encuesta

En el proyecto se hace referencia al origen de los datos importados de la encuesta, pero dichos
datos no se guardan en el proyecto. Por el contrario, cuando se abre un proyecto, los datos de
la encuesta vuelven a leerse desde el origen de datos original. Mientras que las variables ms
importantes en este contexto son las de texto con final abierto, la variable de ID exclusiva se
conserva, igual que cualquier variable de referencia (como variables demogrficas) que se
especifique cuando se importan los datos. Los valores de todas estas variables pueden mostrarse
en el panel Datos de la vista Pregunta en la ventana de anlisis de texto o en la vista Proyecto
completo de la ventana de anlisis de texto.
Recursos lingsticos

Las bibliotecas de su propiedad y las personalizadas por el usuario que contienen listas de trminos,
sinnimos, listas de palabras excluidas y declaraciones de tipo se almacenan en un proyecto que
puede modificarse. Adems, se utilizan determinados recursos compilados para procesar el texto y
tambin se guardan en el proyecto, pero en esta ocasin no puede modificarse. Las bibliotecas
pueden publicarse, y pasan a ser de dominio pblico dentro de la base de datos para que puedan
utilizarse en otros proyectos. Una biblioteca publicada puede aadirse a otros proyectos.
Resultados extrados

Los resultados extrados son palabras clave y frases (conceptos), sus agrupaciones semnticas
(tipos) y sus relaciones (patrones) que se identifican y se extraen a partir de las respuestas de texto.
Estos resultados de extraccin forman parte del proyecto y constituyen la base de la creacin
de categoras. Por defecto, los resultados de la extraccin se guardan en el proyecto, pero si
considera que aumentan demasiado el tamao del archivo del proyecto, puede desactivar esta
opcin, por lo que la prxima vez que abra el proyecto deber volver a realizar la extraccin. Si
desea obtener ms informacin, consulte el tema Cmo guardar los resultados de la extraccin en
el captulo 5 el p. 85.
Copyright IBM Corporation 2004, 2011.

26

27
Creacin de proyectos y paquetes

Categoras

Las respuestas de texto se colocan en categoras que pueden crearse automticamente mediante
las tcnicas incorporadas de generacin de categoras, manualmente mediante operaciones
de arrastrar y soltar, y tambin importando archivos de definicin de categoras o mediante el
Administrador de marcos de cdigo. Si opta por no guardar los resultados de la extraccin,
cuando se vuelve a abrir un proyecto las definiciones de categora permanecen pero el recuento de
respuestas de cualquiera de las partes de las definiciones que procedan de los resultados extrados
se mostrarn con un signo de interrogacin (?) hasta que repita la extraccin.

Preparacin de los datos


Antes de importar los datos en IBM SPSS Text Analytics for Surveys, revise las
consideraciones siguientes:

Datos de entrada. Para importar el origen de datos a SPSS Text Analytics for Surveys, debe

contener determinados elementos bsicos, como una variable de ID y al menos una pregunta
con final abierto. La variable de ID debe contener nicamente valores exclusivos. Si existen
duplicados, la importacin fallar. Puede importar varias preguntas con final abierto, as
como variables de referencia. Si desea obtener ms informacin, consulte el tema Seleccin
de variables el p. 34.

Errores ortogrficos. Aunque el programa arregla algunos errores ortogrficos, se recomienda

que los corrija antes de importar los datos en el programa. Los errores ortogrficos puede
ocasionar problemas en el anlisis de texto, tanto si lo realizan personas como programas de
software. Cuantos ms errores ortogrficos pueda corregir de antemano, ms fiables sern
las categoras resultantes. Tambin puede crear sinnimos con la ortografa correcta de una
palabra y las variaciones tipogrficas incorrectas ms comunes en el programa. De hecho,
en la biblioteca Core ya vienen predefinidos muchos de los errores ms comunes. Si no est
seguro de cunto esfuerzo debera dedicar en la verificacin ortogrfica, puede ejecutar
algunas pruebas con ejemplos de respuestas para comprobar el porcentaje de anlisis que
se ve afectado por los errores ortogrficos.

Respuestas en blanco. No es inusual encontrar respuestas en blanco en los datos con final

abierto de las encuestas. Aunque las respuestas en blanco no aportan informacin, pueden
resultar tiles. Por ejemplo, puede ser interesante saber cuntas personas no respondieron a
una pregunta, o que tipo de personas no lo hizo. Sin embargo, puesto que SPSS Text Analytics
for Surveys utiliza texto para extraer trminos y categorizar respuestas, estas respuestas en
blanco no son fciles de categorizar.
Una posibilidad es, antes de importar los datos, sustituir todas las respuestas en blanco por la
palabra en blanco u otro trmino adecuado. A continuacin, una vez importados los datos,
puede crear un tipo nuevo que represente a la respuesta en blanco, con la palabra en blanco (o
la que haya elegido) como el trmino que representa a ese tipo.
Otra opcin sera forzar las respuestas en blanco en una categora. Despus de categorizar
las respuestas, las respuestas en blanco quedaran inicialmente sin categorizar. Puede crear
manualmente una nueva categora llamada En blanco pulsando el botn derecho del ratn en

28
Captulo 3

el panel Categoras. A continuacin, despus de seleccionar todas las respuestas en blanco,


puede forzarlas a que formen parte de la nueva categora En blanco.

Preguntas de respuestas mltiples. Las preguntas con final abierto suelen ser elementos

individuales; sin embargo no es este el caso. A veces las preguntas con final abierto se utilizan
como conjunto de respuestas mltiples. Por ejemplo, si pregunta a un encuestado Indquenos
tres aspectos para mejorar en el hotel y ofrece tres espacios (variables) separados en los que
responder, esto representa una pregunta de respuesta mltiple.
Puesto que SPSS Text Analytics for Surveys analiza cada variable de pregunta por separado,
puede reutilizar las categoras y los recursos lingsticos creados para analizar la primera
respuesta con el fin de categorizar la segunda y la tercer. Sin embargo, puede que este no sea
el mtodo ms eficaz. Existe la posibilidad de combinar las tres variables de respuesta en una
sola variable antes de importar los datos en el programa. Si las combina, verifique que haya
al menos un espacio entre la ltima palabra de una respuesta y la primera de la siguiente,
o preferiblemente un punto. Puesto que se trata de una tarea que puede resultar tediosa si
se trabaja con conjuntos de datos voluminosos, tiene la opcin de combinar las respuestas
mientras se est creando el archivo de datos en lugar de hacerlo despus.

Ejemplos de respuestas. Cuanto mayor es el nmero de respuestas y mayor su longitud

de promedio, ms tiempo necesitar para la extraccin o categorizacin. Para optimizar el


trabajo, si el tamao del archivo es grande (quiz con 1.500 casos o ms), puede realizar
primero un muestreo aleatorio y utilizar el subconjunto de respuestas ms pequeo para
realizar una primera pasada del anlisis.
Una muestra pequea suele ser perfectamente adecuada para decidir cmo editar los recursos
lingsticos. Y una vez categorizados en un archivo de datos ms pequeo, podr leer el
archivo completo y volver a extraer, accin que categorizar automticamente muchas de las
respuestas. A continuacin podr ver las respuestas que no se adecuaron a las categoras
creadas y podr realizar los ajustes necesarios. El tamao del muestreo aleatorio puede variar,
pero unos 300 casos suele ser adecuado.
Importante: Existen otras consideraciones en relacin al proceso de anlisis de texto en su
globalidad. Si desea obtener ms informacin, consulte el tema Preparacin para el anlisis del
texto en el captulo 1 el p. 7.

Inicio de proyectos nuevos


Para empezar a categorizar los datos de respuesta, primero debe crear un proyecto. Un asistente le
guiar a travs del origen de datos y de la seleccin de variables, especificaciones de recursos y
categoras, etc. Antes de empezar a crear el proyecto, debe preparar los datos.
Para iniciar un proyecto nuevo
E En los mens elija Archivo > Nuevo proyecto. Como alternativa, pulse en Iniciar con un nuevo
proyecto en la pantalla de inicio si no hay ningn proyecto abierto. Aparece el Asistente de

proyecto nuevo.

29
Creacin de proyectos y paquetes
Figura 3-1
Asistente de proyecto nuevo

E Empiece seleccionando el tipo de origen de datos desde la lista desplegable Seleccionar origen

de datos. Si desea obtener ms informacin, consulte el tema Seleccin de los orgenes de


datos el p. 29.

Seleccin de los orgenes de datos


Cuando se abre el asistente, debe empezar seleccionando un origen de datos. IBM SPSS Text
Analytics for Surveys se ha optimizado para procesar conjuntos de datos de hasta 10.000 registros,
aunque el rendimiento variar en funcin del volumen de texto contenido en estos registros.
Consulte las instrucciones de instalacin para conocer las estadsticas y recomendaciones sobre
rendimiento.
Importante: Debe haber una variable de ID con un valor exclusivo para cada registro con el fin
de importar los datos.

Puede elegir uno de los siguientes orgenes de datos:

Archivos SPSS Statistics (*.sav).

Archivos Microsoft Excel (*.xls / *.xlsx).

Base de datos ODBC (protocolo Open Database Connectivity de Microsoft).

Modelo de datos Data Collection. Esta opcin solo est disponible si tiene instalado el modelo
de datos.

30
Captulo 3

Uso de los archivos IBM SPSS Statistics


Puede importar un archivo IBM SPSS Statistics (.sav) en IBM SPSS Text Analytics
for Surveys. Debe haber una variable de ID con un valor exclusivo para cada registro con el
fin de importar los datos.
Importante: No puede importar el archivo SPSS Statistics (.sav) con registros que sobrepasen

los 4000 caracteres.


Nota: SPSS Text Analytics for Surveys se ha optimizado para procesar conjuntos de datos de
hasta 10.000 registros, aunque el rendimiento variar en funcin del volumen de texto contenido
en estos registros. Consulte las instrucciones de instalacin para conocer las estadsticas y
recomendaciones sobre rendimiento.
Figura 3-2
Opciones de origen de datos para archivos IBM SPSS Statistics

Para obtener datos de IBM SPSS Statistics


E En la primera pantalla del asistente, seleccione el archivo SPSS Statistics de la lista desplegable.

El asistente muestra las opciones para los archivos SPSS Statistics.


E En la lista desplegable Buscar en, seleccione la unidad y la carpeta donde se encuentra el archivo.
E Seleccione el archivo de la lista. Aparecer el cuadro de texto Nombre de archivo.
E Pulse en Siguiente para seleccionar variables. Si desea obtener ms informacin, consulte el

tema Seleccin de variables el p. 34.

31
Creacin de proyectos y paquetes

Uso de los archivos Microsoft Excel


Puede importar un archivo Microsoft Excel (.xls / .xlsx) en IBM SPSS Text Analytics for
Surveys. Debe haber una variable de ID con un valor exclusivo para cada registro con el fin
de importar los datos.
Importante: Durante la importacin del archivo Microsoft Excel, puede seleccionar una opcin

para Nombres de columna en la primera fila. Para utilizar esta opcin, la primera lnea de la hoja de
clculo debe contener nombres de columnano la fila justo encima donde empiezan los datos.
Por ejemplo, si los datos y los nombres de columna empiezan en la lnea 7, antes de importar debe
eliminar las filas 16 para que la importacin del archivo sea correcta.
Nota: SPSS Text Analytics for Surveys se ha optimizado para procesar conjuntos de datos de
hasta 10.000 registros, aunque el rendimiento variar en funcin del volumen de texto contenido
en estos registros. Consulte las instrucciones de instalacin para conocer las estadsticas y
recomendaciones sobre rendimiento.
Figura 3-3
Opciones de origen de datos para archivos Microsoft Excel

Para obtener datos de Microsoft Excel


E En la primera pantalla del asistente, seleccione Excel de la lista desplegable. El asistente muestra

las opciones para los archivos Microsoft Excel.


E En la lista desplegable Buscar en, seleccione la unidad y la carpeta donde se encuentra el archivo.
E Seleccione el archivo de la lista. Aparecer el cuadro de texto Nombre de archivo.

32
Captulo 3
E Seleccione la hoja de clculo en la lista desplegable. Solo puede importar datos de una sola hoja

de clculo. Para trabajar con los datos de varias hojas de clculo, debe crear varios proyectos.
E Si la primera fila de esta hoja de clculo contiene las cabeceras de columna, seleccione Nombres
de columna en la primera fila. Para utilizar esta opcin, la primera lnea de la hoja de clculo debe

contener nombres de columnano la fila justo encima donde empiezan los datos. Por ejemplo,
si los datos y los nombres de columna empiezan en la lnea 7, antes de importar debe eliminar
las filas 16 para que la importacin del archivo sea correcta. La aplicacin puede utilizar estos
(o bien una versin convertida si las cabeceras de columna no cumplen las convenciones de
nombres de variables de IBM SPSS Statistics) como nombres de variable. En caso contrario,
la aplicacin utilizar las letras de las columnas de la hoja de clculo como identificadores.
E Pulse en Siguiente para seleccionar variables. Si desea obtener ms informacin, consulte el

tema Seleccin de variables el p. 34.

Uso de los datos a travs de ODBC


Los datos procedentes de orgenes de bases de datos, comnmente de las bases de datos, se
importan fcilmente en IBM SPSS Text Analytics for Surveys. El producto puede leer
directamente las bases de datos que utilizan controladores ODBC (Open Database Connectivity)
despus de que los controladores apropiados se hayan instalado en la mquina en la que SPSS
Text Analytics for Surveys est instalado. Debe haber una variable de ID con un valor exclusivo
para cada registro con el fin de importar los datos.
Nota: SPSS Text Analytics for Surveys se ha optimizado para procesar conjuntos de datos de
hasta 10.000 registros, aunque el rendimiento variar en funcin del volumen de texto contenido
en estos registros. Consulte las instrucciones de instalacin para conocer las estadsticas y
recomendaciones sobre rendimiento.

33
Creacin de proyectos y paquetes
Figura 3-4
Opciones de origen de datos para ODBC

Para utilizar ODBC como medio


E En la primera pantalla del asistente, seleccione ODBC de la lista desplegable. El asistente muestra

las opciones para ODBC.


E Especifique el origen de datos seleccionndolo de la lista de orgenes de ODBC registrados o

tecleando el nombre en el cuadro de texto Origen (DSN). Si necesita registrar nuevos orgenes de
datos que no aparecen en la lista, pulse en ODBC. As se abrir el Administrador de orgenes de
datos ODBC, que se encuentra en la mayora de los ordenadores Microsoft Windows. Si no lo
encuentra, no podr utilizar la importacin ODBC. Consulte el sistema de ayuda de Microsoft
Windows para obtener ms informacin.
E Si el origen de datos est protegido por contrasea, deber especificar un nombre de usuario y una

contrasea. Se le pedir que lo haga cada vez que abra el proyecto, puesto que, por razones de
seguridad, el nombre de usuario y la contrasea no se guardan en el proyecto.
E Puede seleccionar los datos de dos maneras distintas: Tabla o SQL. Puede seleccionar una tabla

directamente, o bien utilizar comandos SQL para seleccionar los datos.


E Pulse en Siguiente para seleccionar variables. Si desea obtener ms informacin, consulte el

tema Seleccin de variables el p. 34.

34
Captulo 3

Uso de datos IBM SPSS Data Collection


Para importar mediante IBM SPSS Data Collection
E En la primera pantalla del asistente, seleccione Data Collection de la lista desplegable. La opcin

del modelo de datos IBM SPSS Data Collection solo est disponible si tiene el modelo de
datos instalado con otro producto.

Seleccin de variables
Despus de seleccionar el origen de datos, el paso siguiente es especificar las variables que se van
a importar. Pueden importarse tres tipos de variables en un proyecto.
Variable de ID exclusiva (obligatoria)

La variable de ID es una clave numrica exclusiva o una cadena que identifica a cada encuestado.
No es necesario ordenar el archivo de datos por variable de ID exclusiva para que se lea
correctamente. Despus de que el programa lo haya ledo, los registros pueden ordenarse segn
determinados criterios. Si desea obtener ms informacin, consulte el tema Ordenacin de las
variables en el captulo 4 el p. 50.Esta variable de ID es obligatoria para importar datos. Cada
registro (o caso) importado debe tener un valor de ID exclusivo.
Pueden darse dos circunstancias por la que la importacin falla:

Si se detectan valores de ID duplicados

Si hay registros con valores de ID en blanco

Nota: Si se detecta un ID duplicado y IBM SPSS Statistics est instalado en el ordenador,


puede utilizar el procedimiento Identify Duplicate Cases (Identificar casos duplicados) en ese
producto para identificar los duplicados y luego utilizar las opciones para indicar qu registros
deben conservarse (casos principales).
Variables de texto con final abierto (obligatorio)

Las variables de texto con final abierto representan las respuestas de texto a las preguntas de la
encuesta. Se requiere al menos una de estas variables para importar datos. Estas variables pueden
ser variables de cadena o cadena larga en SPSS Statistics, columnas que contienen casillas de texto
o generales en Microsoft Excel, o campos de notas o texto procedentes de las bases de datos. Cada
variable de texto con final abierto se analizar por separado. Existe un lmite de 4.000 caracteres
de tamao (extensin) para cada variable de texto importado de un archivo .SAV.
Variables de referencia (opcional)

Las variables de referencia son variables opcionales y adicionales, generalmente de categoras, que
pueden importarse con fines de referencia. Las variables de referencia no se utilizan en el anlisis
de texto, pero proporcionan informacin adicional que describen al encuestado, lo que puede
ayudar a entender e interpretar sus respuestas. Las variables demogrficas suelen incluirse como
variables de referencia, puesto que pueden contribuir a comprender qu trminos o categoras se

35
Creacin de proyectos y paquetes

estn utilizando en cada grupo de personas. Algunos ejemplos son sexo, departamento, trabajo y
nivel de estudios (para evaluaciones de formacin y estudiantes). Puede ver todas las variables
de referencia despus de la importacin en la vista Proyecto completo. Tambin puede mostrar
las variables de referencia en el panel Datos de la vista Pregunta. Adems, puede seleccionar
variables de referencia en el grfico de barras del panel de visualizacin para poder profundizar
a un subconjunto de encuestados.
Nota: Las variables de referencia que se leen de un archivo de datos SPSS Statistics tendrn
etiquetas de variable (si se suministran) que aparecen como cabeceras de columnas, y sus etiquetas
de valor correspondientes (si se suministran) se muestran en las casillas del panel Datos.
Figura 3-5
Seleccin de variables

Para seleccionar variables y opciones de extraccin


E En la lista de variables disponibles, seleccione la variable que se corresponde con la variable de

ID del conjunto de datos, y pulse en el botn de flecha para moverla al cuadro ID nico. El ID
debe ser un nmero o una cadena alfanumrica exclusivos para distinguir los registros entre s. Si
el conjunto de datos contiene ID duplicadas, aparecer un mensaje de error. En tal caso, deber
limpiar los datos antes de repetir la operacin.
E Desde la lista de variables disponibles, seleccione una o ms variables que se correspondan con las

variables de respuesta con final abierto, y pulse el botn de flecha para mover dichas variables
a la lista Variables de texto con final abierto. Las variables se importarn como preguntas
independientes cuyas respuestas sern analizadas y categorizadas por usted.
E Desde la lista de variables disponibles, seleccione una o ms variables que se correspondan con

las variables de referencia, y pulse el botn de flecha para mover dichas variables a la lista de

36
Captulo 3

referencia. Las variables de referencia no se utilizan en tcnicas automticas de generacin


de categoras. Sin embargo, puede ver su contenido y utilizarlas para que le ayuden a tomar
decisiones informadas a la hora de categorizar las respuestas.
E Para ver las etiquetas de las variables en lugar de sus nombres, pulse en el botn situado debajo de

la lista de variables a la izquierda.


E Para cambiar el valor de extraccin, seleccione una opcin en la lista desplegable. La opcin Solo
la primera pregunta est seleccionada por defecto; significa que si ha seleccionado ms de una

variable de texto con final abierto, el proceso de extraccin empezar automticamente para la
primera pregunta despus de que el asistente finalice. La extraccin puede tardar un tiempo en el
caso de conjuntos de datos extensos. Por lo tanto, puede optar por extraer Ninguna o Todas las
preguntas en funcin del tiempo del que disponga.
E Pulse en Siguiente > cuando haya seleccionado todas las variables.

Traduccin al ingls
Si trabaja con un texto de origen que no est en ingls, puede conectarse a Language Weaver
para traducirlo a ese idioma. La traduccin slo est disponible hacia el ingls. Debe haber
configurado Language Weaver adecuadamente y con conexiones definidas para traducir. Si desea
obtener ms informacin, consulte el tema Opciones: pestaa Traduccin en el captulo 2 el p. 22.
Figura 3-6
Opciones de traduccin

37
Creacin de proyectos y paquetes

Para traducir al ingls


E Para traducir los datos de texto de un idioma con licencia al ingls, seleccione la casilla de
verificacin Traducir al ingls.
E En la lista Conexin par de idiomas, seleccione la conexin para el par de idiomas Language

Weaver que desea utilizar. Si ha configurado Language Weaver en su equipo local, esos pares de
idiomas aparecern automticamente en esta lista. Puede aadir, cambiar o comprobar la conexin
de servicios en lnea en la pestaa Traduccin del cuadro de dilogo Opciones. Si desea obtener
ms informacin, consulte el tema Opciones: pestaa Traduccin en el captulo 2 el p. 22.
E Especifique la Precisin de la traduccin que desee. Elija un valor entre 1 y 3 indicando el nivel

de velocidad contra el nivel de precisin que desea. Un valor bajo har que los resultados de
traduccin sean ms rpidos pero que la precisin sea menor. Un valor alto producir resultados
con gran precisin pero llevar ms tiempo de proceso. Para optimizar el tiempo, se recomienda
comenzar con un nivel ms bajo e ir aumentndolo slo si necesita ms precisin despus de
revisar los resultados.
E Si anteriormente haba creado diccionarios personalizados en Language Weaver, puede utilizarlos

en relacin con la traduccin. Para seleccionar un diccionario personalizado, seleccione la casilla


de verificacin Utilizar diccionario personalizado e introduzca el nombre del diccionario. Para utilizar
ms de un diccionario, separe los nombres con comas.
E En el Asistente de nuevo proyecto, pulse en Siguiente> para empezar a seleccionar las categoras

y los recursos. Si desea obtener ms informacin, consulte el tema Seleccin de categoras


y recursos el p. 37.
E En el asistente Cambiar conjuntos de datos, pulse en Finalizar para completar el cambio de los

conjuntos de datos y para iniciar el proceso de traduccin.


Para saltarse la traduccin:
E Elimine la seleccin de la opcin Traducir al ingls.
E En el Asistente de nuevo proyecto, pulse en Siguiente> para empezar a seleccionar las categoras

y los recursos. Si desea obtener ms informacin, consulte el tema Seleccin de categoras


y recursos el p. 37.
E En el asistente Cambiar conjuntos de datos, pulse en Finalizar para completar el cambio de los

conjuntos de datos.

Seleccin de categoras y recursos


En este paso final, puede seleccionar los recursos lingsticos que se utilizarn para extraer
conceptos y patrones destacados del texto. Como alternativa, puede cargar un paquete de anlisis
de texto (TAP), que no slo incluye los recursos lingsticos sino tambin uno o ms conjuntos
de categoras predefinidas que representan marcos de cdigo mejorados. Si desea obtener ms
informacin, consulte el tema Uso de los paquetes de anlisis de texto el p. 41. Se ofrecen varios
archivos TAP pregenerados para textos en ingls en IBM SPSS Text Analytics for Surveys.
Cada archivo TAP incluido en este producto se ha adaptado para un tipo especfico de encuesta,

38
Captulo 3

como encuestas sobre empleados, productos o satisfaccin de los clientes. Tambin puede crear
sus propios archivos TAP para cualquier idioma de texto compatible con el producto.
De manera predeterminada, hay una plantilla de recursos precargada. Puede cambiar la plantilla
de recursos predeterminada que se propone en la primera pestaa del cuadro de dilogo Opciones.
Si desea obtener ms informacin, consulte el tema Opciones de configuracin en el captulo 2 el
p. 17. Puede cargar una plantilla de recursos diferente o seleccione un archivo TAP en su lugar.
Figura 3-7
Seleccin de recursos

Para seleccionar una plantilla de recursos diferente:


E Para cargar una plantilla de recursos diferente, asegrese de seleccionar la opcin Plantilla de
recursos y pulse en Cargar. Aparecer el cuadro de dilogo Cargar plantilla de recursos.

39
Creacin de proyectos y paquetes
Figura 3-8
Cargar plantilla de recursos

E En el cuadro de dilogo Cargar plantilla de recursos, seleccione la plantilla que quiera utilizar
y pulse en Aceptar. El cuadro de dilogo se cerrar y el asistente mostrar la nueva plantilla

que ha seleccionado.
Tenga en cuenta que si tiene alguna plantilla en idiomas para los que no tiene licencia, aparecer
una casilla de verificacin en la parte inferior del cuadro de dilogo para permitirle ocultar las
plantillas de los idiomas sin licencia de la visualizacin.
E Pulse en Finalizar para empezar a importar los datos. Si opta por esta posibilidad, el proyecto

resultante contendr los recursos lingsticos por defecto y, despus de realizar extracciones,
podr generar las categoras manualmente o utilizar una tcnica automtica. Si desea obtener ms
informacin, consulte el tema Categorizacin de los datos de texto en el captulo 6 el p. 93.
Para seleccionar un paquete de anlisis de texto:
E Para cargar un paquete de anlisis de texto, asegrese de seleccionar la opcin Paquete de anlisis
de texto y pulse en Cargar. Aparecer el cuadro de dilogo Cargar Paquete de anlisis de texto.

40
Captulo 3
Figura 3-9
Cargar Paquete de anlisis de texto

E En el cuadro de dilogo, seleccione el archivo TAP que quiera utilizar. En la lista slo aparecen

directamente los paquetes que estn almacenados en el directorio <installation_directory>\TAP


predeterminado. Los campos siguientes se actualizarn con los detalles especficos del archivo
TAP seleccionado.
E En la tabla Conjuntos de categoras puede asignar un conjunto de categoras a cada una de las

variables de texto. En la columna Conjunto de categoras pulse en la lista desplegable de cada


casilla para elegir un conjunto de categoras disponible. Si selecciona Ninguno, no tendr ninguna
categora para esa variable de texto hasta que no las cree en otro momento.
E Pulse en Aceptar. El cuadro de dilogo se cerrar y el asistente mostrar el nuevo archivo TAP que

ha seleccionado. Despus de seleccionar el TAP y los conjuntos de categoras, el asistente finaliza


y poco despus puede ver los registros codificados en categoras preincorporadas. A partir de ese
punto, puede exportar los resultados o utilizar las categoras como punto de partida para el anlisis.
E Pulse en Finalizar para cerrar el cuadro de dilogo y crear el proyecto. Cuando termine, la

aplicacin abre automticamente la vista Pregunta correspondiente a la primera pregunta de texto


con final abierto del proyecto. Si opta por realizar la extraccin, aparecer un dilogo de progreso
de la extraccin; el proceso puede tardar unos minutos en finalizar. Ahora ya puede empezar a
analizar las preguntas. Para cambiar a otra pregunta, en los mens elija Ver > Pregunta.

41
Creacin de proyectos y paquetes

Uso de los paquetes de anlisis de texto


Un paquete de anlisis de texto, tambin llamado TAP, acta como plantilla para la categorizacin
de las respuestas del texto. Utilizar un TAP es una manera fcil de categorizar los datos de texto
con una mnima intervencin, ya que contiene el marco de cdigos y los recursos lingsticos
necesarios para codificar un amplio nmero de registros rpidamente y de forma automtica.
Mediante el uso de los recursos lingsticos, los datos de texto se analizan y se realiza en ellos el
proceso de minera para extraer los conceptos clave. Basndose en los conceptos clave y en los
patrones encontrados en el texto, los registros pueden categorizarse en el conjunto de categoras
que seleccion en el TAP. Puede realizar su propio TAP o actualizar uno.
Un TAP est compuesto por los elementos siguientes:

Conjuntos de categoras. Un conjunto de categoras se compone fundamentalmente de


categoras predefinidas, cdigos de categoras, descriptores para cada categora y, por ltimo,
un nombre para todo el conjunto de categoras. Los descriptores son elementos lingsticos
(conceptos, tipos, patrones y reglas) como el trmino barato o el patrn buen precio. Los
descriptores se utilizan para definir una categora de manera que cuando el texto coincide con
un descriptor de categora, el registro se coloca en la categora.

Recursos lingsticos. Los recursos lingsticos son un conjunto de bibliotecas y recursos


avanzados que se ajustan para extraer patrones y conceptos clave. Estos conceptos y patrones
de extraccin, a su vez, se utilizan como los descriptores que permiten a los registros colocarse
en una categora del conjunto de categoras.

Puede realizar y actualizar paquetes de anlisis de texto.


Despus de seleccionar el TAP y de elegir un conjunto de categoras para cada variable de texto
del Asistente de proyecto nuevo, IBM SPSS Text Analytics for Surveys puede extraer y
categorizar sus registros. Desde aqu, puede exportar los resultados o continuar ajustando la
categorizacin hasta que consiga los resultados que desea.
Nota: Los TAP pueden crearse y utilizarse de manera intercambiable entre SPSS Text Analytics
for Surveys y IBM SPSS Text Analytics.

Creacin de paquetes de anlisis de texto


Si tiene un proyecto con al menos una categora y algunos recursos, puede crear un paquete de
anlisis de texto (TAP) a partir del contenido del proyecto abierto. El conjunto de categoras y
descripciones (conceptos, tipos, reglas o resultados de patrones TLA) de cada pregunta pueden
colocarse en TAP junto con todos los recursos lingsticos abiertos en el Editor de recursos.
Puede ver el idioma para el que se crearon los recursos. El idioma se establece en la pestaa
Recursos avanzados de Editor de recursos.
Importante: Si sus categoras contienen coincidencias de texto, registros forzados o marcas, no se

guardarn en los conjuntos de categoras porque son especficos de los datos y casi nunca pueden
utilizarse en otros datos. Sin embargo, los cdigos de categora y las etiquetas s se guardan.

42
Captulo 3
Figura 3-10
Dilogo Realizar Paquete de anlisis de texto

Para crear un paquete de anlisis de texto


E En los mens elija Archivo > Paquetes de anlisis de texto > Realizar paquete. Aparecer el dilogo

Realizar paquete.
E Busque el directorio en el que se ha guardado el TAP. De manera predeterminada, los TAP se

guardan en el subdirectorio \TAP del directorio de instalacin del producto.


E Introduzca un nombre para el TAP en el campo Nombre de archivo.
E Introduzca una etiqueta en el campo Etiqueta de paquete. Cuando especifica un nombre de archivo,

este nombre automticamente aparece como la etiqueta, pero puede cambiarla si lo desea. Si
guarda un TAP en este directorio por defecto, la etiqueta del paquete aparecer como opcin en la
lista desplegable del Asistente de proyecto nuevo.
E Para excluir un conjunto de categoras del TAP, quite la marca de la casilla de verificacin Incluir.

Al hacerlo se asegura de que no se aadir al paquete. Por defecto, en el TAP se incluye un


conjunto de categoras por pregunta. Siempre debe haber al menos un conjunto de categoras
en el TAP.
E Cambie el nombre de los conjuntos de categoras. La columna Conjunto(s) de categoras nuevas

contiene nombres genricos de manera predeterminada, que se generan al aadir el prefijo Cat_ en

43
Creacin de proyectos y paquetes

el nombre de la variable de texto. Con solo pulsar con el ratn en la casilla podr editar el nombre.
Pulse en cualquier otro lugar para que el cambio de nombre surta efecto. Si cambia el nombre
de un conjunto de categoras, este nombre solo cambia en el TAP y no modifica el nombre de
la variable en el proyecto abierto.
Figura 3-11
Cambie el nombre de los conjuntos de categoras

E Cambie el orden de los conjuntos de categoras mediante las teclas de flecha a la derecha de

la tabla de conjuntos de categoras.


E Pulse en Guardar para crear el paquete de anlisis de texto. El cuadro de dilogo se cierra.

Actualizacin de los paquetes de anlisis de texto


Si realiza mejoras en un conjunto de categoras, en los recursos lingsticos o crea un conjunto de
categoras completamente nuevo, puede actualizar un paquete de anlisis de texto (TAP) para que
pueda volver a utilizar estas mejoras en otro momento. Para ello debe encontrarse en el proyecto
abierto que contiene la informacin que desea colocar en el TAP. Al actualizar puede optar por
agregar conjuntos de categoras, sustituir recursos, cambiar la etiqueta del paquete o cambiar el
nombre o el orden de los conjuntos de categoras.

44
Captulo 3
Figura 3-12
Dilogo Actualizar paquete de anlisis de texto

Para actualizar un paquete de anlisis de texto


E En los mens elija Archivo > Paquetes de anlisis de texto > Actualizar paquete. Aparece el dilogo

Actualizar paquete de anlisis de texto.


E Busque el directorio que contiene el paquete de anlisis de texto que desea actualizar.
E Introduzca un nombre para el TAP en el campo Nombre de archivo.
E Para sustituir los recursos lingsticos que se encuentran dentro del TAP por los que estn en el
proyecto actual, seleccione la opcin Sustituir los recursos de este paquete por los recursos de la
sesin abierta. Por lo general conviene actualizar los recursos lingsticos porque se utilizaron

para extraer los conceptos clave y los patrones empleados para crear las definiciones de categoras.
El hecho de tener los recursos lingsticos ms recientes, garantiza que obtenga los mejores
resultados para categorizar sus registros. Si no selecciona esta opcin, los recursos lingsticos
que ya estaban en el paquete se mantienen sin cambios.
E Para actualizar nicamente los recursos lingsticos, asegrese de que selecciona la opcin
Sustituir los recursos de este paquete por los recursos de la sesin abierta y elige solo los conjuntos

de categoras actuales que ya se encontraban en el TAP.

45
Creacin de proyectos y paquetes
E Para incluir los nuevos conjuntos de categoras desde el proyecto abiertodesde la sesin abierta en

el TAP, marque la casilla de verificacin para cada categora que se defini para aadirse. Puede
aadir uno o varios conjuntos de categoras, o ninguno.
E Para eliminar conjuntos de categoras del TAP, quite la marca de la casilla de verificacin Incluir.

Puede optar por eliminar un conjunto de categoras que ya estuviera en el TAP, puesto que est
aadiendo uno mejorado. Para ello, quite la marca de verificacin de la casilla Incluir del conjunto
de categoras correspondiente en la columna Conjunto(s) de categoras actual(es). Siempre debe
haber al menos un conjunto de categoras en el TAP.
E Cambie el nombre de los conjuntos de categoras, si procede. Con solo pulsar con el ratn en la

casilla podr editar el nombre. Pulse en cualquier otro lugar para que el cambio de nombre surta
efecto. Si cambia el nombre de un conjunto de categoras, este nombre solo cambia en el TAP y
no modifica el nombre de la variable en el proyecto abierto. Si hay dos conjuntos de categoras
con el mismo nombre, los nombres aparecern en rojo hasta que corrija la duplicacin.
Figura 3-13
Nombres duplicados

E Para crear un paquete nuevo con los contenidos de la sesin fusionados con los contenidos del
TAP seleccionado, pulse en Guardar como nuevo. Aparece el dilogo Guardar como Paquete de

anlisis de texto. Consulte las instrucciones siguientes.


E Pulse en Actualizar para guardar los cambios realizados en el TAP seleccionado.
Figura 3-14
Dilogo Guardar como Paquete de anlisis de texto

46
Captulo 3

Para guardar un paquete de anlisis de texto


E Busque el directorio en el que se ha guardado el archivo TAP. Por defecto, los archivos TAP se

guardan en el subdirectorio TAP del directorio de instalacin.


E Introduzca un nombre para el archivo TAP en el campo Nombre de archivo.
E Introduzca una etiqueta en el campo Etiqueta de paquete. Cuando especifica un nombre de

archivo, automticamente se utiliza este nombre tambin como etiqueta. Sin embargo, puede
cambiar el nombre de la etiqueta. Es necesario que tenga una etiqueta. Si guarda un TAP en este
directorio por defecto, la etiqueta del paquete aparecer como opcin en la lista desplegable del
Asistente de proyecto nuevo.
E Pulse en Guardar para crear el nuevo paquete.

Captulo

Trabajo con proyectos

En IBM SPSS Text Analytics for Surveys, trabajar con datos de encuestas que podr
categorizar. Para ello, deber crear proyectos donde generar y guardar definiciones de categoras
y las respuestas a las que se correspondan. Un proyecto puede contener los elementos siguientes:

Datos de la encuesta. Variable de respuesta de texto para preguntas con final abierto, una

variable de ID exclusiva y variables de referencia opcionales. Los datos de la encuesta no


se guardan en el proyecto, sino que se leen a partir del origen de datos original cuando
el proyecto se abre.

Recursos lingsticos. Plantillas de propiedad y personalizadas por el usuario y bibliotecas

(sinnimos, exclusiones y diccionarios de tipo) que se utilizan cuando se extraen conceptos y


patrones del texto.

Resultados extrados. Presentes despus de realizar una extraccin, se trata de las palabras

clave y las frases identificadas y extradas de los datos de las respuestas. Estos conceptos se
utilizarn para crear las categoras.

Categoras. Proceden de los conjuntos de categoras TAP, la creacin manual o la tcnica

automtica de generacin de categoras. Las respuestas de la encuesta se asignan a estas


categoras.

Apertura de proyectos
Para volver a un proyecto existente bralo. Slo se puede abrir un proyecto a la vez. Si intenta abrir
un proyecto cuando hay otro abierto, se le indicar que guarde primero el otro proyecto, si procede.
Cuando el proyecto se abre, IBM SPSS Text Analytics for Surveys comprueba los recursos
lingsticos para determinar si hay bibliotecas pblicas ms recientes de las que contiene el
proyecto. Si ese es el caso, se le preguntar si desea actualizar las bibliotecas. Puede optar por
mantener la versin actual y no actualizar, o bien fusionar las actualizaciones en el proyecto. Si
desea obtener ms informacin, consulte el tema Actualizacin de bibliotecas en el captulo 9
el p. 212.
Importante! SPSS Text Analytics for Surveys no guarda fsicamente los datos de origen en sus

proyectos. En su lugar, en el proyecto se guarda una referencia a dichos datos en la mquina.


Si algn usuario cambia algunas de las variables originales importadas en el origen de datos,
aparecer un aviso que indica que no se han encontrado los datos. Si esto ocurre, deber volver
a importar los datos y hacer coincidir las preguntas nuevas con los nombres de las variables
originales para poder seguir trabajando en el proyecto. En general, no se recomienda que cambie
el nombre de las variables o de las cabeceras de columna de los datos de origen.
Nota: Los resultados de la extraccin se guardan en los proyectos a menos que elija no hacerlo
(Herramientas > Opciones). Cuando se cierra un proyecto, las definiciones de categora se guardan,
pero el panel Resultados extrados quedar en blanco. Cuando abra dicho proyecto, deber
ejecutar una extraccin si desea seguir categorizando las respuestas. Las definiciones de categora
Copyright IBM Corporation 2004, 2011.

47

48
Captulo 4

existentes muestran un signo de interrogacin (?) en lugar del nmero de respuestas. Despus de
volver a realizar la extraccin, aparecer de nuevo el nmero de respuestas.
Para abrir un proyecto
E En los mens elija Archivo > Abrir proyecto. Aparecer el cuadro de dilogo Abrir proyecto.
Figura 4-1
Cuadro de dilogo Abrir

E En la lista seleccione el directorio y el nombre del proyecto que desea abrir. No puede ordenar los

detalles de este cuadro de dilogo, como el tamao y la fecha del archivo.


E Pulse en Aceptar para abrir el proyecto en la ventana principal.
E Si el proyecto contiene datos procedentes de una base de datos protegida por contrasea, se le

indicar que facilite la contrasea cada vez que abra el proyecto.


E Si el contenido del proyecto procede de una versin anterior del producto, se le indicar que

convierta los recursos al nuevo formato. Esto implica que despus de guardar el proyecto, no
podr abrirlo en una versin anterior del producto.
E Si las bibliotecas pblicas del proyecto se han modificado desde la ltima vez que abri el

proyecto, un mensaje de alerta le notificar el cambio.


Importante: Siempre que abra un proyecto, se abrir tambin el conjunto de datos correspondiente.

Si no se encuentran los datos, aparecer un mensaje de error. Para seguir trabajando con los
datos, deber reimportarlos. Si desea obtener ms informacin, consulte el tema Cambio de los
orgenes de datos el p. 61.

Edicin de las propiedades del proyecto


Por defecto, cada proyecto nuevo se llama Proyecto 1. Puede revisar las propiedades bsicas del
proyecto as como aadir o modificar una anotacin para el proyecto.

49
Trabajo con proyectos

Para editar las propiedades del proyecto


E En los mens elija Archivo > Propiedades de proyecto. Aparecer el cuadro de dilogo Propiedades

de proyecto.
Figura 4-2
Cuadro de dilogo Propiedades de proyecto

E Si lo desea, escriba un comentario o descripcin del proyecto en el cuadro de texto Anotacin.

Nota: El nombre del archivo de datos se muestra en este cuadro de dilogo. Puesto que est
creando un proyecto y todava no ha importado ningn dato, el nombre del archivo es desconocido.
Despus de la importacin, solo aparecern los ltimos 60 caracteres del nombre de archivo de los
datos. Si el nombre es ms largo, puede pasar el ratn por encima del mismo para verlo completo.
E Pulse en Aceptar para aceptar las nuevas propiedades. El cuadro de dilogo se cierra y las

propiedades del proyecto se aplican.

Vista de los datos del proyecto


Cuando haya importado el archivo de datos, aparece la vista Pregunta correspondiente a la
primera pregunta de texto con final abierto del proyecto. Sin embargo, es posible que desee
ver todos los datos que ha importado. Para ello vaya a la vista Proyecto completo, que ofrece
una visin completa de los datos. Para acceder a esta vista, elija Ver > Proyecto completo en el
men. En esta vista podr:

Revisar el contenido de todas las variables importadas.

Asignar valores y etiquetas a las variables.

Cambiar los tipos de variables.

50
Captulo 4

Ordenar las variables.

Copiar datos de casillas contiguas y pegarlos en otras aplicaciones.

Cambiar el tamao de las columnas de las variables.

Importante: Los datos que ha importado en el proyecto tienen carcter de solo lectura; no podr
editarlos desde IBM SPSS Text Analytics for Surveys.

Entonces podr empezar a extraer conceptos de dichas respuestas, con los que se crearn las
categoras. Si desea obtener ms informacin, consulte el tema Categorizacin de los datos
de texto en el captulo 6 el p. 93.
Figura 4-3
Acceso a la vista Proyecto completo

Ordenacin de las variables


Puede ordenar los datos en la vista Proyecto completo alfabticamente o por longitud de los datos.
Para ordenar los datos en la vista Proyecto completo
E Seleccione la columna que desee ordenar y pulse el botn derecho del ratn en el ttulo de la

columna para abrir un men contextual.


E Seleccione la opcin de orden que desee entre las opciones siguientes:

Clasificacin natural. Los resultados se ordenan a medida que se leen durante la importacin.

Orden ascendente AZ. Los resultados se ordenan alfabticamente empezando por las casillas

vacas, con nmeros y luego de la A a la Z.

Orden descendente: AZ. Los resultados se ordenan alfabticamente de la Z a A Z, nmeros y

casillas vacas.

Orden ascendente longitud. Los resultados se ordenan por longitud; las respuestas ms breves

aparecen al principio.

Orden descendente: longitud. Los resultados se ordenan por longitud; las respuestas ms

largas aparecen al principio.

Edicin de las propiedades de variables


Mientras define los datos durante el proceso de importacin, se le pide que identifique la variable
que representa los ID exclusivos, las que representan las preguntas que desea analizar y, si
procede, las variables de referencia que deseara incluir. Una vez importados los datos, puede
aadir informacin a las propiedades correspondientes a dichas variables, o bien cambiar su rol
en el proyecto. Por ejemplo, puede analizar una variable que haya importado como variable de
referencia. Puede cambiar las siguientes propiedades de variables:

Aadir o cambiar el nombre o la etiqueta de una variable.

51
Trabajo con proyectos

Cambiar una variable de referencia por una variable de texto con final abierto.

Cambiar una variable con final abierto por una variable de referencia.

Cambiar el tipo de datos de un ID o una variable de referencia.

Figura 4-4
Cuadro de dilogo Propiedades de referencia

Para editar las propiedades de variables


E En la vista Proyecto completo, seleccione la columna correspondiente a la variable cuyas

propiedades desea modificar, y pulse el botn derecho del ratn en el ttulo de la columna para
abrir un men contextual.
E Elija Propiedades en el men. Aparecer el cuadro de dilogo Propiedades.
E Si lo desea, aada o modifique el nombre o la etiqueta de la variable.
E Para utilizar las etiquetas de la variable en lugar del nombre de la variable en el producto,
seleccione la opcin Mostrar etiqueta en lugar del nombre.
E Si lo desea, cambie el rol de las variables en el anlisis por Referencia o Texto con final abierto. No

puede cambiar el rol de una variable de ID. Si ha empezado a trabajar en una variable de texto
(o pregunta) con final abierto y cambia el rol por el de una variable de referencia, el trabajo de
categorizacin que haya realizado se perder.
E Cambie el tipo de datos de la variable por Texto o Numrico.

Guardado de proyectos
Cuando cierra un proyecto o finaliza la sesin, se le pedir que guarde los cambios, si procede.
Los proyectos se guardan en archivos con la extensin de archivo *.tas.
Para guardar los proyectos
E En los mens elija Archivo > Guardar proyecto. El proyecto se guarda.

52
Captulo 4

Para guardar un proyecto al salir


E Al cerrar un proyecto se abre un cuadro de dilogo que le pregunta si desea guardar los cambios

realizados en el proyecto, y si desea (volver a) publicar las bibliotecas.


Figura 4-5
Cuadro de dilogo Guardar proyecto actual

E Seleccione Guardar cambios en el proyecto.


E Si desea publicar bibliotecas para utilizarlas posteriormente, o desea actualizar las versiones
pblicas, seleccione tambin Publicar bibliotecas. Si no hay ninguna biblioteca que necesite

publicacin, la opcin aparece desactivada. Si desea obtener ms informacin, consulte el tema


Publicacin de bibliotecas en el captulo 9 el p. 211.
E Pulse en S para guardar. Si eligi publicar bibliotecas, se abre otro cuadro de dilogo. Si desea

obtener ms informacin, consulte el tema Compartimiento de bibliotecas en el captulo 9 el


p. 210.
Para guardar con otro nombre de proyecto

Si recibe un mensaje de alerta de nombre duplicado o si elige guardar el proyecto con un nombre
diferente, se abre el cuadro de dilogo Guardar proyecto como.
Figura 4-6
Cuadro de dilogo Guardar proyecto como

E Escriba el nuevo nombre exclusivo para el proyecto en el cuadro de texto Nombre de archivo.
E Pulse en Guardar para guardar el nombre nuevo.

53
Trabajo con proyectos

Exportacin de los resultados de la categorizacin


En algunos casos, la creacin de categoras puede constituir el punto final del anlisis.
Simplemente conocer los temas principales que expresan los encuestados, y cuntos encuestados
mencionan cada tema, puede ser suficiente para el propsito del anlisis de texto. Sin embargo, a
menudo querr realizar ms informes y anlisis sobre las categoras, como crear tablas y grficos
para mostrar los resultados. Tambin puede utilizar otras variables del cuestionario para obtener
una caracterizacin de los encuestados ms detallada en cada categora, o utilizar las categoras
para estudiar otras respuestas.
Si desea seguir trabajando con los nuevos resultados de la categorizacin, puede exportar las
categoras en formato de texto para importarlo a una aplicacin de anlisis cuantitativo, como el
sistema base de IBM SPSS Statistics. El archivo resultante contiene los ID de los encuestados
y los nombres y etiquetas de las categoras, pero no contiene los valores de las variables de
referencia ni de las respuestas con final abierto.
Nota: Tambin puede generar grficos de resumen, por ejemplo, un grfico de barras Las
5 categoras principales. Estos grficos, que se exportan en HTML, pueden utilizarse en
presentaciones. Si desea obtener ms informacin, consulte el tema Exportacin de grficos
de resumen el p. 58.
Tipos de archivos exportados

Cuando realiza la exportacin puede utilizar uno de los tipos de archivos disponibles:

Archivos SPSS Statistics (*.sav). Si desea obtener ms informacin, consulte el tema


Exportacin a IBM SPSS Statistics o IBM SPSS Data Collection el p. 54.

Archivos Microsoft Excel (*.xls / *.xlsx). Si desea obtener ms informacin, consulte el


tema Exportando a Microsoft Excel el p. 56.

IBM SPSS Data Collection. Si desea obtener ms informacin, consulte el tema


Exportacin a IBM SPSS Statistics o IBM SPSS Data Collection el p. 54. Consulte tambin
la biblioteca de desarrollo de Data Collection en Data Collection Modelo de datos.

Resultado Dicotomas frente a resultado Categoras

Los datos de texto que se han codificado con IBM SPSS Text Analytics for Surveys forman un
conjunto de mltiples respuestas, puesto que cada encuestado puede aportar ms de una respuesta
y se le puede asignar a ms de una categora por una sola pregunta. Esto significa que los datos
deben codificarse en un formato especial cuando se exportan. Hay dos formatos de resultados
disponibles de exportacin: dicotomas y categoras.
Dicotomas. Los resultados se centran en las marcas de miembros de categoras para cada ID de

respuesta. Para cada categora de los datos, cada encuestado (por ID) pertenece o no a la categora
utilizando una marca binaria, que se codifica como verdadera o falsa. Los datos se estructuran
en formato de tabla, con el ID en la columna de la izquierda y una columna para cada categora.
Este tipo de datos permite un nmero ilimitado de categoras por respuesta. Si hay 10 categoras,
habr 10 variables nuevas.

54
Captulo 4

Categoras. Los resultados se centran en el conjunto de categoras al que pertenece una respuesta.

Para cada respuesta de los datos, cada categora a la que se ha asignado aparece como un valor
(para SPSS Statistics) o como una categora en s misma (para Microsoft Excel). Los datos de
exportacin de la categora se estructuran en formato de tabla, con el ID en la columna de la
izquierda, seguido por una columna por categora a la que al menos pertenece una respuesta. Estas
columnas no representan una categora particular, sino un espacio para registrar un cdigo de
categora asignado. Para cada respuesta, cada cdigo de categora al que pertenece la respuesta
se guarda en un espacio aparte. La respuesta con el nmero mximo de categoras asignadas
determina el nmero de variables que debe crearse. Si hay 10 categoras pero no hay ningn
encuestado codificado con ms de 4 categoras, se necesitarn 4 variables para representar las
categoras.

Para SPSS Statistics/Data Collection. Para cada ID de respuesta de los datos, cada categora a

la que est asignado aparece como un valor individual del 1 al N, donde N es el valor ms alto
del cdigo de categora. Si no ha asignado cdigos en el Administrador de marcos de cdigo,
los cdigos se asignan automticamente cuando se crea la categora. Si a un encuestado se
le asignan menos categoras que el nmero mximo, las variables que quedan sin utilizar se
codifican con el valor que falta del sistema SPSS Statistics (un punto).

Para Microsoft Excel. Para cada ID de respuesta de los datos, cada categora a la que se le

asigna aparece como nombre de categora o como etiqueta de categora, dependiendo de


lo que est utilizando en la interfaz del producto. Si a un encuestado se le asignan menos
categoras que el nmero mximo, las variables que quedan sin utilizar se codifican con un
valor en blanco en Microsoft Excel.

Exportacin a IBM SPSS Statistics o IBM SPSS Data Collection


Una vez categorizadas las respuestas, probablemente querr analizar los resultados utilizando
procedimientos estadsticos. IBM SPSS Text Analytics for Surveys permite crear un archivo
de datos con un formato que puede utilizarse en diferentes productosestas instrucciones explican
cmo exportar para utilizar en IBM SPSS Statistics (programa de anlisis estadsticos)
y varios productos IBM SPSS Data Collection. SPSS Text Analytics for Surveys crear
automticamente la variable de respuestas mltiples en el archivo exportado. El formato exacto
del archivo depende del tipo de datos que seleccionedicotomas o categoras.
Nota: El archivo resultante contiene los ID de los encuestados y los nombres y etiquetas de
las categoras, pero no contiene los valores de las variables de referencia ni de las respuestas
con final abierto.
SPSS Statistics solamente. En relacin con los resultados, si el conjunto de datos contiene datos o
casos que faltan (cuando un encuestado no ha contestado a una pregunta concreta), la aplicacin
asigna el valor que falta del sistema a estos casos. Los archivos SPSS Statistics exportados por
SPSS Text Analytics for Surveys no pueden utilizarse en versiones anteriores a la 7.5 deSPSS
Statistics.

55
Trabajo con proyectos

Para exportar datos


E En el men Archivo > Exportar resultados elija una de las siguientes opciones para abrir el cuadro

de dilogo Exportar:

SPSS Statistics Archivo

Data Collection Archivo

Figura 4-7
Cuadro de dilogo Exportar para formatos de archivos IBM SPSS Statistics

E En la lista desplegable Guardar en, seleccione la unidad y la carpeta donde desea que se guarde

el archivo.
E Seleccione una opcin de Tipo de datos. Si desea obtener ms informacin, consulte el tema

Exportacin de los resultados de la categorizacin el p. 53.

Dicotomas.

Categoras. Esta opcin no est disponible para el archivo de datos Data Collection, y se

seleccionar Dicotomas por defecto.

56
Captulo 4
E En la lista desplegable Pregunta, seleccione la pregunta que desea exportar. Puede elegir si

exportar los resultados de la categorizacin para una sola pregunta o para todo el proyecto.
Si desea exportar cada pregunta por separado, deber seleccionar y exportar cada pregunta
individualmente. O puede seleccionar Proyecto completo para exportar los resultados de todas las
preguntas con final abierto.
E Seleccione una opcin de Anteponer para designar un prefijo al exportar los nombres de las

categoras para el proyecto completo. Esta opcin es ms til cuando se exportan los datos para
mltiples preguntas. La anteposicin aade un prefijo al nombre de categora o a la etiqueta de
la variable original, y garantiza que no haya duplicados cuando se combinen los resultados de
mltiples preguntas a la hora de exportar el proyecto completo. Seleccione entre las siguientes
alternativas:

Ninguna. Tal como la opcin implica, no se aade ningn prefijo.

Nombres de pregunta. Los prefijos generan nombres de variables de categora (ya sea el

nombre de categora o la etiqueta de categora dependiendo de lo que utilice en el proyecto)


con el nombre (pregunta) de variable de texto con final abierto. El nombre de variable de
pregunta procede del origen de datos original. Si el nombre de variable de categora que se
genera no se adapta a las convenciones de nombres de variables o sobrepasa los 40 caracteres,
se crean nombres por defecto (como con la opcin Generar automticamente).

Generar nombres automticamente. Coloca automticamente un prefijo Q1, Q2, Q3, etc.,

a los nombres de categora. Q1 representa la primera pregunta de la exportacin, y as


sucesivamente.

Etiquetas de pregunta. Los prefijos generan nombres de variables de categora (ya sea el

nombre de categora o la etiqueta de categora dependiendo de lo que utilice en el proyecto)


con la etiqueta (pregunta) de variable de texto con final abierto. El nombre de variable de
pregunta procede del origen de datos original. Si el nombre de variable de categora que se
genera no se adapta a las convenciones de nombres de variables o sobrepasa los 40 caracteres,
se crean nombres por defecto (como con la opcin Generar automticamente).
E Si tiene marcas de respuesta en los datos, puede optar por exportarlas. Para exportar marcas de

respuesta, seleccione la opcin correspondiente. Si desea obtener ms informacin, consulte


el tema Marcacin de las respuestas el p. 74.
E En el cuadro de texto Nombre de archivo, seleccione el nombre de proyecto por defecto que

aparece, o escriba otro nombre para el archivo.


E Pulse en Guardar para exportar los resultados.

Exportando a Microsoft Excel


Una vez categorizadas las respuestas, probablemente querr analizar los resultados mediante
procesos estadsticos. IBM SPSS Text Analytics for Surveys permite crear un archivo de
datos con un formato que puede utilizarse en diferentes productos. Las instrucciones siguientes
explican cmo exportar en formato Microsoft Excel. SPSS Text Analytics for Surveys crear
automticamente la variable de mltiples respuestas en el archivo exportado. El formato exacto
del archivo depende del tipo de datos que seleccionedicotomas o categoras. El archivo

57
Trabajo con proyectos

resultante contiene los ID de los encuestados y los nombres y etiquetas de las categoras, pero no
contiene los valores de las variables de referencia ni de las respuestas con final abierto.
Para exportar datos
E En los mens elija Archivo > Exportar resultados > Archivo de Microsoft Excel. Aparecer el cuadro

de dilogo Exportar.
Figura 4-8
Cuadro de dilogo Exportar para archivos Microsoft Excel

E En la lista desplegable Guardar en, seleccione la unidad y la carpeta donde desea que se guarde

el archivo.
E Seleccione una opcin de Tipo de datos. Si desea obtener ms informacin, consulte el tema

Exportacin de los resultados de la categorizacin el p. 53.

Dicotomas.

Categoras. Esta opcin no est disponible para el archivo de datos IBM SPSS Data

Collection, y se seleccionar Dicotomas por defecto.

58
Captulo 4
E En la lista desplegable Pregunta, seleccione la pregunta que desea exportar. Puede elegir si

exportar los resultados de la categorizacin para una sola pregunta o para todo el proyecto.
Si desea exportar cada pregunta por separado, deber seleccionar y exportar cada pregunta
individualmente. O puede seleccionar Proyecto completo para exportar los resultados de todas las
preguntas con final abierto.
E Seleccione una opcin de nombres de hoja de clculo para designar cmo deben nombrarse

las hojas de clculo generadas en el archivo Microsoft Excel. Seleccione entre las siguientes
alternativas:

Nombres de pregunta. Utiliza el nombre (pregunta) de variable de texto con final abierto como

nombre de hoja de clculo. El nombre de pregunta procede del origen de datos original. Si el
nombre de variable de categora que se genera no se adapta a las convenciones de nombres de
variables o sobrepasa los 40 caracteres, se crean nombres por defecto (como con la opcin
Generar automticamente).

Generar nombres automticamente. Asigna automticamente Q1, Q2, Q3, etc., a las hojas de

clculo. Q1 representa la primera pregunta de la exportacin, y as sucesivamente.

Etiquetas de pregunta. Utiliza la etiqueta (pregunta) de variable de texto con final abierto, si

existe alguna, como nombre de hoja de clculo. Si el nombre de variable de categora que se
genera no se adapta a las convenciones de nombres de variables o sobrepasa los 40 caracteres,
se crean nombres por defecto (como con la opcin Generar automticamente).
E Si tiene marcas de respuesta en los datos, puede optar por exportarlas. Para exportar marcas de

respuesta, seleccione la opcin correspondiente. Si desea obtener ms informacin, consulte


el tema Marcacin de las respuestas el p. 74.
E En el cuadro de texto Nombre de archivo, seleccione el nombre de proyecto por defecto que

aparece, o escriba otro nombre para el archivo.

Exportacin de grficos de resumen


Cuando haya terminado de trabajar con las categoras y los datos, puede exportar informes
grficos de resumen para compartir los resultados del anlisis con otros usuarios. El resultado
genera un grfico de barras por cada pregunta. Puede elegir el nmero de categoras principales
que se utilizarn en cada grfico para que pueda presentar visualmente las cinco o las diez
categoras principales de una pregunta determinada. El grfico puede exportarse al navegador por
defecto, desde el que podr guardar la imagen para utilizarla en otros productos o presentaciones.

59
Trabajo con proyectos
Figura 4-9
Ejemplos de grficos de resumen en una ventana de navegacin

Para exportar grficos de resumen


E En los mens elija Categoras > Exportar grficos de resumen. Aparecer el cuadro de dilogo

Exportar grficos de resumen.


E Configure el grfico de resumen utilizando las opciones que se describen en este tema.
E Pulse en Generar para generar el grfico y mostrarlo en un panel de Presentacin preliminar.
E Pulse en Exportar al navegador por defecto para ver el grfico en una ventana del navegador.

60
Captulo 4
Figura 4-10
Cuadro de dilogo Exportar grficos de resumen

Opciones de informe
Exportar grfico(s) de. Elija si desea generar un grfico de resumen para todas las preguntas del
proyecto o solo para la pregunta actualmente seleccionada.
Nmero de categoras principales para incluir. Seleccione el nmero mximo de categoras que se
han de mostrar en el grfico. Las categoras que tengan el mayor nmero de registros se usarn
en primer lugar.
Volver a extraer si se encuentran resultados de extraccin desactualizados. Seleccione esta opcin

para forzar una nueva extraccin antes de generar el grfico si los resultados de la extraccin
no estn actualizados.
Ttulo principal. Escriba un ttulo principal para los grficos. Por ejemplo, este podra ser el

nombre de su encuesta.
Subttulo. Escriba un subttulo para los grficos. Por ejemplo, este podra ser el nombre de

la empresa o el ao de la encuesta.
Ttulo de la pregunta. Para ayudarle a identificar cada grfico, el ttulo procede de la pregunta.

Puede elegir utilizar el nombre variable de la pregunta, su etiqueta o ningn nombre.


Etiqueta del eje X. Defina una etiqueta para el eje X de los grficos. Por defecto se propone una

etiqueta.
Etiqueta del eje Y. Defina una etiqueta para el eje Y de los grficos. Por defecto se propone una

etiqueta.
Color de barra. Elija un color para las barras del grfico de resumen. Este color se aplica a
todas las preguntas.

61
Trabajo con proyectos

Fuente. Elija una fuente para los ttulos y las etiquetas del grfico.

Cambio de los orgenes de datos


Siempre que abra un proyecto, se abrir tambin el conjunto de datos correspondiente. Si no se
encuentran los datos, aparecer un mensaje de error. En ocasiones no pueden encontrarse los
datos porque se movieron a otra ubicacin, alguien los borr accidentalmente o se les cambi el
nombre. Como alternativa, puede cambiar a otros orgenes de datos.
Figura 4-11
Mensaje de error de datos no hallados

Para seguir trabajando con los datos, debe cambiar la ubicacin al origen de datos adecuado. Si se
encuentran cambios de variables en los datos, como variables nuevas, con otro nombre o variables
ausentes, se le pedir que compare las variables importadas anteriormente con las nuevas.
Para cambiar el origen de los datos:
E Si recibe este tipo de mensaje de error, pulse en Aceptar.
E En los mens elija Archivo > Cambiar origen de datos. Aparece el dilogo del Asistente para

cambiar el origen de datos.

62
Captulo 4
Figura 4-12
Asistente para cambiar el origen de datos

Seleccin de los orgenes de datos


Cuando se abre el asistente, debe empezar seleccionando un origen de datos. IBM SPSS Text
Analytics for Surveys se ha optimizado para procesar conjuntos de datos de hasta 10.000 registros,
aunque el rendimiento variar en funcin del volumen de texto contenido en estos registros.
Consulte las instrucciones de instalacin para conocer las estadsticas y recomendaciones sobre
rendimiento.
Importante: Debe haber una variable de ID con un valor exclusivo para cada registro con el fin
de importar los datos.

Puede elegir uno de los siguientes orgenes de datos:

Archivos SPSS Statistics (*.sav).

Archivos Microsoft Excel (*.xls / *.xlsx).

Base de datos ODBC (protocolo Open Database Connectivity de Microsoft).

Modelo de datos Data Collection. Esta opcin solo est disponible si tiene instalado el modelo
de datos.

63
Trabajo con proyectos

Uso de los archivos IBM SPSS Statistics


Puede importar un archivo IBM SPSS Statistics (.sav) en IBM SPSS Text Analytics
for Surveys. Debe haber una variable de ID con un valor exclusivo para cada registro con el
fin de importar los datos.
Importante: No puede importar el archivo SPSS Statistics (.sav) con registros que sobrepasen

los 4000 caracteres.


Nota: SPSS Text Analytics for Surveys se ha optimizado para procesar conjuntos de datos de
hasta 10.000 registros, aunque el rendimiento variar en funcin del volumen de texto contenido
en estos registros. Consulte las instrucciones de instalacin para conocer las estadsticas y
recomendaciones sobre rendimiento.
Figura 4-13
Opciones de origen de datos para archivos IBM SPSS Statistics

Para obtener datos de IBM SPSS Statistics


E En la primera pantalla del asistente, seleccione el archivo SPSS Statistics de la lista desplegable.

El asistente muestra las opciones para los archivos SPSS Statistics.


E En la lista desplegable Buscar en, seleccione la unidad y la carpeta donde se encuentra el archivo.
E Seleccione el archivo de la lista. Aparecer el cuadro de texto Nombre de archivo.
E Pulse en Siguiente para seleccionar variables. Si desea obtener ms informacin, consulte el

tema Seleccin de variables el p. 34.

64
Captulo 4

Uso de los archivos Microsoft Excel


Puede importar un archivo Microsoft Excel (.xls / .xlsx) en IBM SPSS Text Analytics for
Surveys. Debe haber una variable de ID con un valor exclusivo para cada registro con el fin
de importar los datos.
Importante: Durante la importacin del archivo Microsoft Excel, puede seleccionar una opcin

para Nombres de columna en la primera fila. Para utilizar esta opcin, la primera lnea de la hoja de
clculo debe contener nombres de columnano la fila justo encima donde empiezan los datos.
Por ejemplo, si los datos y los nombres de columna empiezan en la lnea 7, antes de importar debe
eliminar las filas 16 para que la importacin del archivo sea correcta.
Nota: SPSS Text Analytics for Surveys se ha optimizado para procesar conjuntos de datos de
hasta 10.000 registros, aunque el rendimiento variar en funcin del volumen de texto contenido
en estos registros. Consulte las instrucciones de instalacin para conocer las estadsticas y
recomendaciones sobre rendimiento.
Figura 4-14
Opciones de origen de datos para archivos Microsoft Excel

Para obtener datos de Microsoft Excel


E En la primera pantalla del asistente, seleccione Excel de la lista desplegable. El asistente muestra

las opciones para los archivos Microsoft Excel.


E En la lista desplegable Buscar en, seleccione la unidad y la carpeta donde se encuentra el archivo.
E Seleccione el archivo de la lista. Aparecer el cuadro de texto Nombre de archivo.

65
Trabajo con proyectos
E Seleccione la hoja de clculo en la lista desplegable. Solo puede importar datos de una sola hoja

de clculo. Para trabajar con los datos de varias hojas de clculo, debe crear varios proyectos.
E Si la primera fila de esta hoja de clculo contiene las cabeceras de columna, seleccione Nombres
de columna en la primera fila. Para utilizar esta opcin, la primera lnea de la hoja de clculo debe

contener nombres de columnano la fila justo encima donde empiezan los datos. Por ejemplo,
si los datos y los nombres de columna empiezan en la lnea 7, antes de importar debe eliminar
las filas 16 para que la importacin del archivo sea correcta. La aplicacin puede utilizar estos
(o bien una versin convertida si las cabeceras de columna no cumplen las convenciones de
nombres de variables de IBM SPSS Statistics) como nombres de variable. En caso contrario,
la aplicacin utilizar las letras de las columnas de la hoja de clculo como identificadores.
E Pulse en Siguiente para seleccionar variables. Si desea obtener ms informacin, consulte el

tema Seleccin de variables el p. 34.

Uso de los datos a travs de ODBC


Los datos procedentes de orgenes de bases de datos, comnmente de las bases de datos, se
importan fcilmente en IBM SPSS Text Analytics for Surveys. El producto puede leer
directamente las bases de datos que utilizan controladores ODBC (Open Database Connectivity)
despus de que los controladores apropiados se hayan instalado en la mquina en la que SPSS
Text Analytics for Surveys est instalado. Debe haber una variable de ID con un valor exclusivo
para cada registro con el fin de importar los datos.
Nota: SPSS Text Analytics for Surveys se ha optimizado para procesar conjuntos de datos de
hasta 10.000 registros, aunque el rendimiento variar en funcin del volumen de texto contenido
en estos registros. Consulte las instrucciones de instalacin para conocer las estadsticas y
recomendaciones sobre rendimiento.

66
Captulo 4
Figura 4-15
Opciones de origen de datos para ODBC

Para utilizar ODBC como medio


E En la primera pantalla del asistente, seleccione ODBC de la lista desplegable. El asistente muestra

las opciones para ODBC.


E Especifique el origen de datos seleccionndolo de la lista de orgenes de ODBC registrados o

tecleando el nombre en el cuadro de texto Origen (DSN). Si necesita registrar nuevos orgenes de
datos que no aparecen en la lista, pulse en ODBC. As se abrir el Administrador de orgenes de
datos ODBC, que se encuentra en la mayora de los ordenadores Microsoft Windows. Si no lo
encuentra, no podr utilizar la importacin ODBC. Consulte el sistema de ayuda de Microsoft
Windows para obtener ms informacin.
E Si el origen de datos est protegido por contrasea, deber especificar un nombre de usuario y una

contrasea. Se le pedir que lo haga cada vez que abra el proyecto, puesto que, por razones de
seguridad, el nombre de usuario y la contrasea no se guardan en el proyecto.
E Puede seleccionar los datos de dos maneras distintas: Tabla o SQL. Puede seleccionar una tabla

directamente, o bien utilizar comandos SQL para seleccionar los datos.


E Pulse en Siguiente para seleccionar variables. Si desea obtener ms informacin, consulte el

tema Seleccin de variables el p. 34.

67
Trabajo con proyectos

Uso de datos IBM SPSS Data Collection


Para importar mediante IBM SPSS Data Collection
E En la primera pantalla del asistente, seleccione Data Collection de la lista desplegable. La opcin

del modelo de datos IBM SPSS Data Collection solo est disponible si tiene el modelo de
datos instalado con otro producto.

Seleccin de variables
Despus de seleccionar el origen de datos, el paso siguiente es especificar las variables que se van
a importar. Pueden importarse tres tipos de variables en un proyecto.
Variable de ID exclusiva (obligatoria)

La variable de ID es una clave numrica exclusiva o una cadena que identifica a cada encuestado.
No es necesario ordenar el archivo de datos por variable de ID exclusiva para que se lea
correctamente. Despus de que el programa lo haya ledo, los registros pueden ordenarse segn
determinados criterios. Si desea obtener ms informacin, consulte el tema Ordenacin de las
variables el p. 50.Esta variable de ID es obligatoria para importar datos. Cada registro (o caso)
importado debe tener un valor de ID exclusivo.
Pueden darse dos circunstancias por la que la importacin falla:

Si se detectan valores de ID duplicados

Si hay registros con valores de ID en blanco

Nota: Si se detecta un ID duplicado y IBM SPSS Statistics est instalado en el ordenador,


puede utilizar el procedimiento Identify Duplicate Cases (Identificar casos duplicados) en ese
producto para identificar los duplicados y luego utilizar las opciones para indicar qu registros
deben conservarse (casos principales).
Variables de texto con final abierto (obligatorio)

Las variables de texto con final abierto representan las respuestas de texto a las preguntas de la
encuesta. Se requiere al menos una de estas variables para importar datos. Estas variables pueden
ser variables de cadena o cadena larga en SPSS Statistics, columnas que contienen casillas de texto
o generales en Microsoft Excel, o campos de notas o texto procedentes de las bases de datos. Cada
variable de texto con final abierto se analizar por separado. Existe un lmite de 4.000 caracteres
de tamao (extensin) para cada variable de texto importado de un archivo .SAV.
Variables de referencia (opcional)

Las variables de referencia son variables opcionales y adicionales, generalmente de categoras, que
pueden importarse con fines de referencia. Las variables de referencia no se utilizan en el anlisis
de texto, pero proporcionan informacin adicional que describen al encuestado, lo que puede
ayudar a entender e interpretar sus respuestas. Las variables demogrficas suelen incluirse como
variables de referencia, puesto que pueden contribuir a comprender qu trminos o categoras se

68
Captulo 4

estn utilizando en cada grupo de personas. Algunos ejemplos son sexo, departamento, trabajo y
nivel de estudios (para evaluaciones de formacin y estudiantes). Puede ver todas las variables
de referencia despus de la importacin en la vista Proyecto completo. Tambin puede mostrar
las variables de referencia en el panel Datos de la vista Pregunta. Adems, puede seleccionar
variables de referencia en el grfico de barras del panel de visualizacin para poder profundizar
a un subconjunto de encuestados.
Nota: Las variables de referencia que se leen de un archivo de datos SPSS Statistics tendrn
etiquetas de variable (si se suministran) que aparecen como cabeceras de columnas, y sus etiquetas
de valor correspondientes (si se suministran) se muestran en las casillas del panel Datos.
Figura 4-16
Seleccin de variables

Para seleccionar variables y opciones de extraccin


E En la lista de variables disponibles, seleccione la variable que se corresponde con la variable de

ID del conjunto de datos, y pulse en el botn de flecha para moverla al cuadro ID nico. El ID
debe ser un nmero o una cadena alfanumrica exclusivos para distinguir los registros entre s. Si
el conjunto de datos contiene ID duplicadas, aparecer un mensaje de error. En tal caso, deber
limpiar los datos antes de repetir la operacin.
E Desde la lista de variables disponibles, seleccione una o ms variables que se correspondan con las

variables de respuesta con final abierto, y pulse el botn de flecha para mover dichas variables
a la lista Variables de texto con final abierto. Las variables se importarn como preguntas
independientes cuyas respuestas sern analizadas y categorizadas por usted.
E Desde la lista de variables disponibles, seleccione una o ms variables que se correspondan con

las variables de referencia, y pulse el botn de flecha para mover dichas variables a la lista de

69
Trabajo con proyectos

referencia. Las variables de referencia no se utilizan en tcnicas automticas de generacin


de categoras. Sin embargo, puede ver su contenido y utilizarlas para que le ayuden a tomar
decisiones informadas a la hora de categorizar las respuestas.
E Para ver las etiquetas de las variables en lugar de sus nombres, pulse en el botn situado debajo de

la lista de variables a la izquierda.


E Para cambiar el valor de extraccin, seleccione una opcin en la lista desplegable. La opcin Solo
la primera pregunta est seleccionada por defecto; significa que si ha seleccionado ms de una

variable de texto con final abierto, el proceso de extraccin empezar automticamente para la
primera pregunta despus de que el asistente finalice. La extraccin puede tardar un tiempo en el
caso de conjuntos de datos extensos. Por lo tanto, puede optar por extraer Ninguna o Todas las
preguntas en funcin del tiempo del que disponga.
E Pulse en Siguiente > cuando haya seleccionado todas las variables.

Variables coincidentes
Despus de seleccionar variables en el paso anterior, IBM SPSS Text Analytics for Surveys
intentar correlacionar las variables importadas con anterioridad con las que acaba de seleccionar.
Las coincidencias se proponen automticamente, pero puede relacionar las variables de otras
formas pulsando con el ratn en la columna Reemplazar por y eligiendo otra variable.
Si el nuevo archivo de datos no contiene una variable de texto con final abierto que existiera
en el proyecto anterior, puede seleccionar NINGUNO en la lista, y los datos asociados con la
pregunta antigua se descartarn del proyecto.
Las variables del nuevo archivo de datos que no puedan asignarse al proyecto existente
aparecen en la lista Nueva pregunta con final abierto en la parte inferior del cuadro de dilogo.
Despus de cambiar los conjuntos de datos, las variables restantes aparecern como nuevas
preguntas en el proyecto.

70
Captulo 4
Figura 4-17
Cuadro de dilogo Coincidir contenido con proyecto existente

Para hacer coincidir las variables con otras existentes:


E Cuando el producto intenta relacionar las nuevas variables con las que ya se encontraban en el

archivo de datos, puede cambiar la forma en que las variables relacionan las variables pulsando en
la columna Reemplazar por y seleccionando la coincidencia de la variable. Si ha seleccionado ms
variables en el paso anterior que las especificadas en la columna Reemplazar por, aparecern en
Nueva pregunta con final abierto (no asignada a las preguntas existentes). Despus de cambiar los
conjuntos de datos, las variables restantes aparecern como nuevas preguntas en el proyecto.
E Si la variable existente no tiene ninguna coincidencia en el nuevo conjunto de datos, elija
NINGUNO y los datos de esta pregunta existente se descartarn.
E Si el proyecto contiene respuestas que se hayan forzado dentro o fuera de las categoras o de las

marcas, se le indicar que conserve o descarte estos resultados especficos de ID de respuesta. Por
lo general, si importa datos diferentes (preguntas nuevas o encuestados distintos, por ejemplo),
seguramente querr descartar esta informacin para que no se generen resultados falsos. Si est
importando el mismo archivo de datos, seguramente querr conservar esta informacin puesto que
los ID de respuesta coincidirn con los datos antiguos.

Traduccin al ingls
Si trabaja con un texto de origen que no est en ingls, puede conectarse a Language Weaver
para traducirlo a ese idioma. La traduccin slo est disponible hacia el ingls. Debe haber
configurado Language Weaver adecuadamente y con conexiones definidas para traducir. Si desea
obtener ms informacin, consulte el tema Opciones: pestaa Traduccin en el captulo 2 el p. 22.

71
Trabajo con proyectos
Figura 4-18
Opciones de traduccin

Para traducir al ingls


E Para traducir los datos de texto de un idioma con licencia al ingls, seleccione la casilla de
verificacin Traducir al ingls.
E En la lista Conexin par de idiomas, seleccione la conexin para el par de idiomas Language

Weaver que desea utilizar. Si ha configurado Language Weaver en su equipo local, esos pares de
idiomas aparecern automticamente en esta lista. Puede aadir, cambiar o comprobar la conexin
de servicios en lnea en la pestaa Traduccin del cuadro de dilogo Opciones. Si desea obtener
ms informacin, consulte el tema Opciones: pestaa Traduccin en el captulo 2 el p. 22.
E Especifique la Precisin de la traduccin que desee. Elija un valor entre 1 y 3 indicando el nivel

de velocidad contra el nivel de precisin que desea. Un valor bajo har que los resultados de
traduccin sean ms rpidos pero que la precisin sea menor. Un valor alto producir resultados
con gran precisin pero llevar ms tiempo de proceso. Para optimizar el tiempo, se recomienda
comenzar con un nivel ms bajo e ir aumentndolo slo si necesita ms precisin despus de
revisar los resultados.
E Si anteriormente haba creado diccionarios personalizados en Language Weaver, puede utilizarlos

en relacin con la traduccin. Para seleccionar un diccionario personalizado, seleccione la casilla


de verificacin Utilizar diccionario personalizado e introduzca el nombre del diccionario. Para utilizar
ms de un diccionario, separe los nombres con comas.

72
Captulo 4
E En el Asistente de nuevo proyecto, pulse en Siguiente> para empezar a seleccionar las categoras

y los recursos. Si desea obtener ms informacin, consulte el tema Seleccin de categoras y


recursos en el captulo 3 el p. 37.
E En el asistente Cambiar conjuntos de datos, pulse en Finalizar para completar el cambio de los

conjuntos de datos y para iniciar el proceso de traduccin.


Para saltarse la traduccin:
E Elimine la seleccin de la opcin Traducir al ingls.
E En el Asistente de nuevo proyecto, pulse en Siguiente> para empezar a seleccionar las categoras

y los recursos. Si desea obtener ms informacin, consulte el tema Seleccin de categoras y


recursos en el captulo 3 el p. 37.
E En el asistente Cambiar conjuntos de datos, pulse en Finalizar para completar el cambio de los

conjuntos de datos.

Actualizacin de los datos


A medida que trabaja con los datos del proyecto puede cambiar el origen de datos original. Por
ejemplo, puede aadir o eliminar registros. Puede actualizar los datos utilizando la funcin
Actualizar datos. Sin embargo, si ha cambiado los nombres de variable o el nombre de archivo,
por ejemplo, tendr que volver a importar los datos completamente. Si desea obtener ms
informacin, consulte el tema Cambio de los orgenes de datos el p. 61.
Para actualizar y renovar los datos:
E En los mens elija Archivo > Actualizar datos. Los datos se vuelven a leer para tener en cuenta

los nuevos cambios.


E Si se ha realizado anteriormente una traduccin en ingls, aparecer el dilogo Configuracin de

traduccin para que pueda seleccionar el par de idiomas y volver a traducir. Si desea obtener ms
informacin, consulte el tema Traduccin al ingls el p. 72.

Traduccin al ingls
Puede actualizar una traduccin cuando lo desee. Tras la traduccin, deber extraer de nuevo dado
que los resultados de su traduccin no se podrn sincronizar con su nueva traduccin.
Nota: Si quiere traducir nuevos datos, podr hacerlo directamente en el asistente Nuevo proyecto
cuando cree un proyecto nuevo. Si desea obtener ms informacin, consulte el tema Traduccin al
ingls el p. 36.

73
Trabajo con proyectos
Figura 4-19
Configuracin de traduccin

Para traducir al ingls


E En los mens seleccione Herramientas > Configuracin de traduccin. Aparecer el dilogo

Configuracin de traduccin.
E Para traducir los datos de texto de un idioma con licencia al ingls, seleccione la casilla de
verificacin Traducir al ingls.
E En la lista Conexin par de idiomas, seleccione la conexin para el par de idiomas Language

Weaver que desea utilizar. Si ha configurado Language Weaver en su equipo local, esos pares
de idiomas aparecern automticamente en esta lista. Puede aadir o comprobar conexiones de
servicios de red (WAN) o en lnea (HTTP) en la pestaa Traduccin del dilogo Opciones. Si desea
obtener ms informacin, consulte el tema Opciones: pestaa Traduccin en el captulo 2 el p. 22.
E Especifique la Precisin de la traduccin que desee. Elija un valor entre 1 y 3 indicando el nivel

de velocidad contra el nivel de precisin que desea. Un valor bajo har que los resultados de
traduccin sean ms rpidos pero que la precisin sea menor. Un valor alto producir resultados
con gran precisin pero llevar ms tiempo de proceso. Para optimizar el tiempo, se recomienda
comenzar con un nivel ms bajo e ir aumentndolo slo si necesita ms precisin despus de
revisar los resultados.
E Si anteriormente haba creado diccionarios personalizados en Language Weaver, puede utilizarlos

en relacin con la traduccin. Para seleccionar un diccionario personalizado, seleccione la casilla


de verificacin Utilizar diccionario personalizado e introduzca el nombre del diccionario. Para utilizar
ms de un diccionario, separe los nombres con comas.
E Pulse en Traducir para empezar el proceso de traduccin. Aparecer el dilogo de progreso de

traduccin.

74
Captulo 4

Cmo compartir proyectos


Puede compartir proyectos con otros usuarios o en caso de que quiera trabajar con un proyecto
en otra mquina.
Para compartir un proyecto:
E En los mens elija Archivo > Guardar proyecto. El proyecto se guarda.
E Enve el archivo de proyecto a otra mquina o persona. Este archivo de proyecto contiene una

referencia al archivo de datos que import originalmente. Si desea que el otro usuario utilice los
mismos datos de origen para este proyecto, tambin deber proporcionarle el archivo de datos
original e informarle de la ruta donde deber copiar dicho archivo de datos para que IBM
SPSS Text Analytics for Surveys pueda encontrar el archivo de datos cuando abra el archivo del
proyecto.
E Cuando el otro usuario abre el archivo del proyecto en SPSS Text Analytics for Surveys, podr

optar entre utilizar las bibliotecas locales que se encuentran en el archivo del proyecto o bien
utilizar las versiones pblicas de las bibliotecas que ya tiene. Por lo general, y para garantizar
los mismos resultados, conviene utilizar las versiones locales.
E Si SPSS Text Analytics for Surveys no puede localizar el archivo de datos, aparece un mensaje

que avisa al usuario de que debe volver a importar los datos. Si desea obtener ms informacin,
consulte el tema Cambio de los orgenes de datos el p. 61.

Marcacin de las respuestas


Para ayudarle a supervisar el progreso del anlisis de la encuesta, puede marcar las respuestas
mediante marcas especficas en el panel Datos. Existen varias razones por las que puede marcar
una respuesta, por ejemplo:

Marcar respuestas que ha revisado manualmente y as saber desde dnde deber continuar
ms adelante

Marcar una respuesta que no est seguro sobre cmo manejar

Sealar y exportar las marcas a otro programa

Una vez que seala una respuesta con una marca, puede continuar trabajando con dicha respuesta.
Las marcas solo tienen fines de registro. Puede seleccionar entre las marcas siguientes:
Tabla 4-1
Descripciones de las marcas

Marca

Descripcin
La marca de Completo denota respuestas que considera terminadas.
La marca de Importante denota respuestas que considera importantes.

75
Trabajo con proyectos
Figura 4-20
Marcas de respuesta en el panel Datos

Para sealar una respuesta con una marca:


E En el panel Datos seleccione la respuesta que desea marcar.
E En los mens elija Editar > Marcar respuestas con y luego seleccione el tipo de marca que desea
utilizar (Marca de importante o Marca de completo). Se asignar la marca seleccionada. Si la

columna Marca del panel Datos no estaba visible, aparecer. La barra de estado se actualiza con
el nmero de respuestas marcadas.
Para borrar las marcas:
E En el panel Datos pulse el botn derecho del ratn sobre las respuestas de las que desea eliminar

la marca.
E En el men contextual elija Marcar respuestas con > Borrar marcas. Las marcas seleccionadas se

eliminan.

Barra de estado del proyecto


En funcin de la ventana o vista en la que est trabajando, pueden existir diferentes barras de
estado. Por defecto, las barras de estado se mostrarn siempre que tenga un proyecto abierto.
Estas barras de estado proporcionan informacin sobre el proyecto y los elementos que contiene.
Tambin puede activar o desactivar las barras de estado cuando lo desee.
Para desactivar o activar la barra de estado de cualquier ventana:
E En los mens elija Ver > Barra de estado.

76
Captulo 4

Ventana Anlisis de texto

Esta barra de estado proporciona informacin sobre las preguntas y las respuestas del proyecto.
En funcin del lugar donde se encuentre en la ventana de anlisis de texto, la informacin de la
barra de estado cambiar. Tambin puede ver el nmero de respuestas que se han marcado como
importantes o completas.
Figura 4-21
Barra de estado de la ventana de anlisis de texto: Vista Pregunta

Cuando est en la vista Pregunta, puede ver el nmero de categoras para esa pregunta y la
categorizacin por porcentaje de respuesta. Cuando est en la vista Proyecto completo, puede ver
la informacin de todo el proyecto.
Figura 4-22
Barra de estado de la ventana de anlisis de texto: vista Proyecto completo

En la tabla siguiente se describe cada elemento de la barra de estado.


Tabla 4-2
Ventana Anlisis de texto: Descripcin de la barra de estado

Elemento
Registros
Preguntas
Referencia
Categoras
Categorizadas

Descripcin
Nmero de registros de los datos.
Nmero de preguntas del proyecto.
Nmero de variables de referencia importadas. Las variables de referencia son
variables adicionales que se importan con fines de referencia, pero no se analizan.
Nmero de categoras de una pregunta determinada. Si existen categoras vacas, el
nmero de categoras vacas se indica entre parntesis.
Nmero de respuestas de la pregunta seguido del porcentaje de categorizacin entre
parntesis.

Ventana Editor de recursos

Esta barra de estado proporciona informacin sobre los recursos lingsticos del proyecto. Puede
accionar el rea de los trminos forzados en la barra, lo que significa que puede pulsar sobre ella
para realizar la accin correspondiente. Cuando se trabaja con bibliotecas, puede desactivar
elementos de las bibliotecas para excluirlos del proceso. Si desea obtener ms informacin,
consulte el tema Desactivacin de bibliotecas locales en el captulo 9 el p. 207. Si el proyecto
contiene elementos desactivados, aparecern nmeros de dos dgitos en la barra de estado; el
primer dgito es el nmero de elementos presente, y el segundo el nmero de elementos activados.
Por ejemplo, si en la barra de estado se muestra 5(2) bibliotecas, significa que hay cinco bibliotecas
en el proyecto pero que solo hay dos activadas.
Figura 4-23
Barra de estado de la ventana Editor de diccionario

En la tabla siguiente se describe cada elemento de la barra de estado.

77
Trabajo con proyectos
Tabla 4-3
Ventana Editor de recursos: Descripcin de la barra de estado

Elemento
Biblioteca
Tipo
Trmino

Descripcin
Nmero de bibliotecas en el proyecto.
Nmero de tipos en todo el proyecto.
Nmero de trminos en todas las bibliotecas. Si un trmino est en la lista Excluido,
sigue apareciendo en el recuento. Tenga en cuenta que si un tipo est desactivado,
tambin lo estarn todos los trminos de ese tipo.
Excluir
Nmero de elementos excluidos en todas las bibliotecas del proyecto.
Sinnimo
Nmero de objetivos de sinnimos en todas las bibliotecas del proyecto.
Opcional
Nmero de elementos opcionales definidos en todas las bibliotecas del proyecto.
Tenga en cuenta que los nmeros incluyen todas las entradas delimitadas en una
casilla individualmente.
Trminos forzados Botn que se activa siempre que existen trminos forzados en las bibliotecas del
proyecto. Si pulsa este botn se muestra el cuadro de dilogo Editar trminos
forzados. Si desea obtener ms informacin, consulte el tema Forzado de trminos en
el captulo 10 el p. 222.

Captulo

Extraccin de datos

Cuando crea un proyecto a travs del asistente Nuevo proyecto, la opcin por defecto es realizar
una extraccin automtica para la primera pregunta. Si desea actualizar una extraccin, o realizar
una extraccin de una nueva pregunta, puede hacerlo manualmente (Herramientas > Extraer) o
realizar la extraccin cuando empiece a generar categoras. El resultado final de esta extraccin
es un conjunto de conceptos, tipos y patrones. Puede ver y trabajar con estos resultados en el
panel Resultados extrados.
Si no se realiz la extraccin cuando cre el proyecto o si eligi no guardar los resultados de la
extraccin, puede navegar hasta la pregunta con la que desee empezar a trabajar (Ver > Pregunta >
Pregunta) y realizar la extraccin.
Despus de la extraccin debe revisar los resultados y realizar los cambios que considere
necesarios. Si desea obtener ms informacin, consulte el tema Refinamiento de los resultados
de la extraccin el p. 86. Luego puede repetir la extraccin para ver los nuevos resultados. Si
las respuestas las codifican manualmente dos personas, stas pueden agrupar las respuestas de
manera ligeramente diferente. Sin embargo, la precisin y la continuidad son extremadamente
importantes a la hora de categorizar las respuestas de una encuesta.
La potencia de IBM SPSS Text Analytics for Surveys reside en su capacidad para
proporcionar una reaplicacin coherente de las definiciones de categora. El ajuste preciso
desde el principio de los resultados de la extraccin permite garantizar que la prxima vez que
vuelva a realizar la extraccin, obtendr resultados idnticos en las definiciones de su categora,
perfectamente adaptados al contexto de los datos. De esta forma, las respuestas se asignarn a las
definiciones de categora de una manera ms precisa y repetible.

Resultados extrados: Conceptos, tipos y patrones


Despus de crear un proyecto, la ventana muestra automticamente la primera pregunta con
final abierto que ha importado. El panel Resultados extrados se encuentra en el ngulo inferior
izquierdo de la vista Pregunta. A esta vista se accede desde el men Ver (Ver > Pregunta >
Pregunta). Si no dispone de resultados de extraccin, deber realizar una extraccin para empezar
a trabajar. Si desea obtener ms informacin, consulte el tema Extraccin de datos el p. 82.

Copyright IBM Corporation 2004, 2011.

78

79
Extraccin de datos
Figura 5-1
Panel Resultados extrados antes y despus de la extraccin

Si el panel Resultados extrados est vaco o desactualizado, aparece de color amarillo. Pulse en
el botn Extraer para iniciar el proceso de extraccin. Despus de la extraccin, puede ver los
resultados seleccionando lo que desee ver en la lista desplegable.
Figura 5-2
Lista desplegable del panel Resultados extrados

Los conceptos, los tipos y los patrones TLA que se han extrado se conocen colectivamente con
el nombre de resultados de extraccin, y actan como los descriptores, o los cimientos, de las
categoras. Tambin puede utilizar conceptos, tipos y patrones en las reglas de categora. Adems,
las tcnicas automticas utilizan conceptos y tipos para generar categoras.
El anlisis de texto es un proceso repetitivo en el que los resultados de la extraccin se revisan
de acuerdo con el contexto de los datos de texto, se ajustan para generar resultados nuevos y
luego se reevalan. Despus de la extraccin debe revisar los resultados y realizar los cambios
que considere necesarios modificando los recursos lingsticos. Puede ajustar los recursos, en
parte, directamente desde el panel Resultados extrados o el panel de Datos a travs de los
mens contextuales. Si desea obtener ms informacin, consulte el tema Refinamiento de los
resultados de la extraccin el p. 86. Tambin puede hacerlo directamente en la vista Editor de

80
Captulo 5

recursos. Si desea obtener ms informacin, consulte el tema La ventana Editor de recursos en el


captulo 2 el p. 15.
Despus del ajuste, puede repetir la extraccin para ver los nuevos resultados. El ajuste preciso
desde el principio de los resultados de la extraccin permite garantizar que la prxima vez que
vuelva a realizar la extraccin, obtendr resultados idnticos en las definiciones de su categora,
perfectamente adaptados al contexto de los datos. De esta forma, registros se asignarn a las
definiciones de categora de una manera ms precisa y repetible.
Conceptos

Durante el proceso de extraccin, los datos de texto se exploran y se analizan para poder
identificar las palabras simples relevantes o interesantes (como eleccin o paz) y frases (como
eleccin presidencial, eleccin del presidente o tratados de paz) en el texto.
Estas palabras y frases se conocen colectivamente con el nombre de trminos. Mediante los
recursos lingsticos, los trminos relevantes se extraen y, a continuacin, los trminos similares
se agrupan bajo un trmino principal llamado concepto.
Figura 5-3
Panel Resultados extrados: Vista Concepto

Por defecto, los conceptos se muestran en minscula y en orden descendente segn el nmero
de registros donde se encuentra el concepto. Cuando se extraen conceptos, se les asigna un tipo
para contribuir a agrupar conceptos similares. Estn codificados por colores segn este tipo. Los
colores estn definidos en las propiedades de tipo en el Editor de recursos. Si desea obtener ms
informacin, consulte el tema Diccionarios de tipo en el captulo 10 el p. 215.
Cuando se utiliza un concepto, tipo o patrn en una definicin de categora, aparece en cursiva
en la tabla.
Tipos

Tipos son agrupaciones semnticas de conceptos. Cuando se extraen conceptos, se les asigna
un tipo para contribuir a agrupar conceptos similares. Se entregan varios tipos incorporados con
IBM SPSS Text Analytics for Surveys, como <Location>, <Organization>, <Person>,
<Positive>, <Negative>, etc. Por ejemplo, el tipo <Location> agrupa lugares y palabras
clave geogrficas. Este tipo se asigna a conceptos como chicago, pars y tokio. conceptos
que no se encuentran en ningn diccionario de tipo pero que se extraen del texto se tipifican

81
Extraccin de datos

automticamente como <Unknown>. Si desea obtener ms informacin, consulte el tema Tipos


incorporados en el captulo 10 el p. 216.
Cuando selecciona la vista Tipo, los tipos extrados aparecen por defecto en orden descendente
por frecuencia . Cuando se expande el rbol, se ven los conceptos que se extrajeron para dicho
tipo. Comprobar tambin que estos tipos estn codificados por colores para que sea ms
fcil distinguirlos. Los colores forman parte de las propiedades de tipo. Si desea obtener ms
informacin, consulte el tema Creacin de tipos en el captulo 10 el p. 217. Tambin puede
crear sus propios tipos.
Figura 5-4
Panel Resultados extrados: Vista Tipo

Patrones

Los patrones estn compuestos de dos partes: una combinacin de conceptos y tipos incorporados
que representan cualificadores y adjetivos. Los patrones son muy tiles cuando se intenta detectar
opiniones sobre un asunto en particular. Conseguir el nombre del producto de la competencia
puede que no sea lo suficientemente interesante. En ese caso, puede comprobar los patrones
extrados por si pudiera encontrar ejemplos donde los encuestados consideraron el producto
bueno, malo o caro. Existen dos vistas de patrones diferentes: Patrn de concepto y Patrn de tipo.
Figura 5-5
Panel Resultados extrados: La vista Patrn de concepto y la vista Patrn de tipo

82
Captulo 5

Patrn de concepto. En esta vista, el nivel superior del rbol del panel Resultados extrados
muestra los patrones con la estructura siguiente: concepto1 + <Tipo1> para patrones de
conceptos, como anlisis de texto + <Positive> o coste + <Negative>. Cuando se
expande el rbol, puede ver los patrones exactos, como anlisis de texto + potente o
coste + caro.
Los patrones tambin pueden resultar significativos cuando existen sin la segunda parte
del patrn. Por ejemplo, puede querer encontrar situaciones en las que el encuestado no
expres una opinin positiva ni negativa sobre el asunto. En ese caso, esto se representa como
concepto1 + ., donde . designa un cualificador nulo. Por ejemplo, si un encuestado contesta
Coste, ubicacin de la tienda al responder a la pregunta Qu factores tiene en cuenta a la
hora de optar por un reproductor de msica?, la extraccin podra generar coste + . y
ubicacin_de_la_tienda + . como patrones nulos. Cuando se muestran los patrones, se
asignan colores a cada elemento del patrn en funcin de su tipo.
Patrn de tipo. En esta vista, el nivel superior del rbol del panel Resultados extrados muestra
los patrones con la estructura siguiente: <Tipo> + <Tipo>, como <Budget> + <Positive>.
Si expande an ms el rbol, ver las relaciones tal como se describen y presentan en la vista
Patrn de concepto. Cuando se muestran los patrones, se asignan colores a cada elemento del
patrn en funcin de su tipo.
Pestaas Extracciones no usadas y Todas las extracciones

El panel Resultados extrados muestra los resultados del proceso de extraccin. Cuando empieza a
crear categoras, algunos de sus conceptos extrados (conceptos, tipos y patrones) se convierten
en parte de los descriptores de categora. Por esta razn, SPSS Text Analytics for Surveys
presenta esta informacin de dos maneras mediante pestaas. Puede pasar de un elemento a otro
alternativamente, los elementos que ya se han utilizado en las definiciones de categora y el
conjunto completo de conceptos extrados. Puede hacerlo pulsando en las pestaas Extracciones
no usadas y Todas las extracciones. La pestaa Extracciones no usadas muestra todos los
elementos que actualmente no forman parte de un descriptor de categora. La pestaa Todas las
extracciones muestra todos los elementos extrados con los elementos utilizados en cursiva.

Extraccin de datos
Cuando se necesita una extraccin, el panel Resultados extrados aparece de color amarillo y se
muestra el mensaje Pulse el botn Extraer para extraer conceptos debajo de la barra de herramientas
de este panel.
Puede que necesite realizar una extraccin si todava no tiene resultados de extraccin, si no ha
realizado cambios en los recursos lingsticos y necesita actualizar los resultados de la extraccin,
o si ha reabierto una sesin proyecto donde no ha guardado los resultados de la extraccin
(Herramientas > Opciones).
Nota: Si cambia el nodo de origen de la ruta despus de haber almacenado en cach los resultados
de la extraccin con la opcin Utilizar trabajo de sesin..., para obtener resultados de extraccin
actualizados necesitar ejecutar una nueva extraccin una vez que se inicie la sesin de trabajo
interactiva.

83
Extraccin de datos

Cuando ejecuta una extraccin, aparece un indicador de progreso que ofrece informacin sobre el
estado de la extraccin. Durante este tiempo, el motor de extraccin lee todos los datos de texto
e identifica los trminos y patrones relevantes, los extrae y les asigna un tipo. A continuacin,
el motor intenta agrupar los trminos sinnimos bajo un trmino principal, llamado concepto.
Cuando finaliza el proceso, los conceptos, tipos y patrones resultantes aparecen en el panel
Resultados extrados. Puede empezar a trabajar con los resultados, y revisarlos.
Nota: Existe una relacin entre el tamao del conjunto de datos y el tiempo que se tarda en
completar el proceso de extraccin. Consulte las instrucciones de instalacin para conocer las
recomendaciones y las estadsticas de rendimiento.
Para extraer datos
E En los mens elija Herramientas > Extraer. Como alternativa, pulse en el botn de la barra de
herramientas Extraer.
E Si opta por que siempre se muestre el dilogo Configuracin de extraccin, aparecer para que

pueda realizar cambios. Ms adelante en este tema encontrar los descriptores de cada valor de
configuracin.
E Pulse en Extraer para empezar el proceso de extraccin. Una vez se inicia la extraccin, se abre

el cuadro de dilogo de progreso. Despus de la extraccin, los resultados aparecen en el panel


Resultados extrados. Por defecto, los conceptos se muestran en minscula y en orden descendente
segn el nmero de registros donde se encuentra el concepto.
Puede repasar los resultados utilizando las opciones de la barra de herramientas y establecer los
resultados con un orden diferente, o cambiar de vista (conceptos, patrones o tipos). Tambin puede
refinar los resultados de la extraccin trabajando con los recursos lingsticos. Si desea obtener
ms informacin, consulte el tema Refinamiento de los resultados de la extraccin el p. 86.
El cuadro de dilogo Configuracin de extraccin contiene algunas opciones bsicas de extraccin.

84
Captulo 5
Figura 5-6
Cuadro de dilogo Configuracin de extraccin

Acomodar errores de puntuacin. Esta opcin normaliza temporalmente el texto que contiene
errores de puntuacin (por ejemplo, el uso inapropiado) durante la extraccin para mejorar la
capacidad de extraccin de los conceptos. Esta opcin es extremadamente til cuando el texto es
breve y de calidad mediocre (como, por ejemplo, en respuestas de encuestas con final abierto,
correo electrnico y datos CRM) o cuando el texto contiene muchas abreviaturas.
Acomodar la ortografa a un lmite mnimo de caracteres raz de [n]. Esta opcin aplica una tcnica

de agrupacin difusa que ayuda a agrupar bajo un concepto las palabras que suelen escribirse mal
o que tienen una ortografa parecida. El algoritmo de agrupacin difusa elimina temporalmente
todas las vocales (excepto la primera) y las consonantes dobles o triples de las palabras extradas,
y luego las compara para comprobar si son las mismas; en este caso modelado y modulado se
agruparan juntas. Sin embargo, si a cada trmino se le asigna un tipo diferente, excluyendo el
tipo <Unknown>, la tcnica de agrupacin difusa no se aplicar.
Tambin puede definir el nmero mnimo de caracteres raz necesarios para poder utilizar la
agrupacin difusa. El nmero de caracteres raz de un trmino se calcula sumando todos los
caracteres y restando los que forman los sufijos de las declinaciones, y en el caso de trminos
de palabras compuestas, tambin los determinantes y las preposiciones. Por ejemplo, el trmino
ejercicios se considera que tiene 9 caracteres raz con la forma ejercicio, puesto que la
letra s al final de la palabra es una declinacin (forma plural). Asimismo, agua natural
tiene 11 caracteres raz (agua natural) y fabricacin de coches tiene 16 caracteres raz
(fabricacin coche). Este mtodo de recuento de caracteres solo se utiliza para comprobar si
debe aplicarse la agrupacin difusa, pero no influye en la forma de coincidencia de las palabras.
Nota: Si considera que algunas palabras se agrupan incorrectamente, puede excluir parejas de
palabras de esta tcnica indicndolo explcitamente en la seccin Agrupacin difusa: Excepciones
en la pestaa Recursos avanzados. Si desea obtener ms informacin, consulte el tema Agrupacin
difusa en el captulo 11 el p. 236.

85
Extraccin de datos

Extraer unitrminos. Esta opcin extrae palabras simples (unitrminos) siempre que la palabra no

forme parte de una palabra compuesta, y si es un sustantivo o una categora lxica no reconocida.
Extraer entidades no lingsticas. Esta opcin extrae entidades no lingsticas, como nmeros de
telfono, nmeros de la seguridad social, horas, fechas, monedas, dgitos, porcentajes, direcciones
de correo electrnico y direcciones de HTTP. Puede incluir o excluir determinados tipos de
entidades no lingsticas en la seccin Entidades no lingsticas: Configuracin en la pestaa
Recursos avanzados. Si se desactivan las entidades innecesarias, el motor de extraccin no
malgastar tiempo de proceso. Si desea obtener ms informacin, consulte el tema Configuracin
en el captulo 11 el p. 241.
Algoritmo de maysculas. Esta opcin extrae trminos simples y compuestos que no estn en los
diccionarios incorporados, siempre que la primera letra del trmino est en mayscula. Esta
opcin supone un buen mtodo para extraer la mayora de los nombres propios.
Agrupar los nombres parciales y completos de persona siempre que sea posible. Esta opcin agrupa

nombres que aparecen de diferente manera juntos en el texto. Esta funcin es til porque a
menudo se hace referencia a los nombres completos al principio del texto, y ms adelante se utiliza
la versin abreviada. Esta opcin intenta hacer coincidir cualquier unitrmino que tenga el tipo
<Unknown> con la ltima palabra de cualquier trmino compuesto que se haya tipificado como
<Person>. Por ejemplo, si se encuentra garca, que inicialmente se tipific como <Unknown>,
el motor de extraccin comprobar si hay algn trmino compuesto en el tipo <Person> con
el trmino garca como la ltima palabra, como en juan garca. Esta opcin no se aplica a los
nombres propios, porque muchos de ellos no se extraen nunca como unitrminos.
Permutacin mxima de palabras no funcionales. Esta opcin especifica el nmero mximo de
palabras no funcionales que debe haber para poder aplicar la tcnica de permutacin. Esta tcnica
de permutacin agrupa frases similares que difieren entre s solo en las palabras no funcionales
(por ejemplo, de y el), independientemente de la flexin. Por ejemplo, supongamos que define
este valor con al menos dos palabras, y se ha extrado tanto conductor de autobs como el
conductor del autobs. En este caso, los dos trminos extrados se agruparan juntos en
la lista de conceptos finales, puesto que ambos trminos se consideran el mismo si se pasan por
alto las palabras el del.
Mostrar siempre este dilogo antes de iniciar una extraccin. Especifique si desea ver el dilogo

Configuracin de extraccin cada vez que realice una extraccin, si no desea verlo nunca a menos
que vaya al men Herramientas, o si desea que cada vez que realice una extraccin se le pregunte
si desea editar algn valor de la configuracin de extraccin.

Cmo guardar los resultados de la extraccin


Siempre que realice una extraccin, los resultados aparecen en el panel Resultados extrados y
pueden utilizarse para categorizar las respuestas. Durante una sesin de IBM SPSS Text
Analytics for Surveys, estos resultados de la extraccin se guardan en la memoria para que pueda
trabajar con ellos. Por defecto, los resultados de la extraccin se guardan en los proyectos. Si lo
desea, puede guardar estos resultados al cerrar el proyecto mediante un valor de la configuracin
global que puede cambiar en cualquier momento en el cuadro de dilogo Opciones (Herramientas
> Opciones). Si desea obtener ms informacin, consulte el tema Opciones: pestaa Sistema en el
captulo 2 el p. 18.

86
Captulo 5

Como medida de seguridad, se realiza un proceso de cifrado de dichos resultados de extraccin


durante el proceso de guardado, y se colocan en la base de datos. Este procedimiento dificulta la
posibilidad de que otro usuario vea los datos de la base de datos. Adems, los resultados de la
extraccin nunca se presentarn en SPSS Text Analytics for Surveys hasta que la aplicacin haya
localizado el origen de datos. De esta manera, si los datos estn protegidos por contrasea, el
usuario debe especificar el nombre de usuario y la contrasea correspondiente al origen de los
datos para que los resultados de la extraccin aparezcan en pantalla.

Refinamiento de los resultados de la extraccin


La extraccin constituye un proceso repetitivo por el que puede realizar una extraccin, revisar
los resultados, realizar cambios y volver a realizar la extraccin para actualizar los resultados.
Puesto que la precisin y la continuidad son esenciales para una minera y categorizacin de texto
exitosos, refinar los resultados de la extraccin desde el principio garantiza que cada vez que
realice la extraccin, obtendr con exactitud los mismos resultados en las definiciones de categora.
De esta forma, los registros se asignarn a las categoras de una manera ms precisa y repetible.
Los resultados de la extraccin constituyen los cimientos de las categoras. Cuando crea
categoras utilizando estos resultados de extraccin, los registros se asignan automticamente a
categoras si contienen texto que coincida con uno o ms descriptores de categora. Aunque
empiece a categorizar antes de realizar ajustes en los recursos lingsticos, conviene revisar los
resultados de la extraccin al menos una vez antes de comenzar.
Mientras revisa los resultados puede encontrar elementos que deseara que el motor de
extraccin gestionara de otra forma. Observe los ejemplos siguientes:

Sinnimos no reconocidos. Supongamos que encuentra varios conceptos que considera


sinnimos, como listo, inteligente, brillante y erudito, y que todos ellos aparecen

como conceptos individuales en los resultados extrados. Puede crear una definicin de
sinnimo donde se agrupen los trminos inteligente, brillante y erudito bajo el
concepto objetivo listo. Al hacerlo, se agruparan todos estos conceptos con listo, y la
frecuencia global tambin sera mayor. Si desea obtener ms informacin, consulte el tema
Adicin de sinnimos el p. 87.

Conceptos con tipos incorrectos. Supongamos que los conceptos de los resultados extrados

aparecen en un tipo y desea que se asignen a otro distinto. Imagine, en otro ejemplo, que
encuentra 15 conceptos de verduras en los resultados extrados y desea que todos ellos
se aadan a un nuevo tipo llamado <Verduras>. conceptos que no se encuentran en
ningn diccionario de tipo pero que se extraen del texto se tipifican automticamente como
<Unknown>. Puede aadir los conceptos a los tipos. Si desea obtener ms informacin,
consulte el tema Adicin de conceptos a tipos el p. 89.

Conceptos insignificantes. Supongamos que encuentra un concepto extrado y que tiene una

frecuencia muy alta, es decir, que aparece en muchos registros . Sin embargo, considera que
es un concepto sin trascendencia para su anlisis. Puede excluirlo de la extraccin. Si desea
obtener ms informacin, consulte el tema Exclusin de conceptos de la extraccin el p. 91.

Coincidencias incorrectas. Supongamos que, al revisar los registros que contienen un concepto

determinado, descubre que ha habido dos palabras que se han agrupado juntas indebidamente,
como facultad y facilidad. Esta coincidencia puede deberse a un algoritmo interno, al
que se conoce como agrupacin difusa, que pasa por alto provisionalmente las vocales y las
consonantes duplicadas o triplicadas con el objeto de agrupar errores ortogrficos comunes.

87
Extraccin de datos

Puede aadir estas palabras a una lista de parejas de palabras que no deben agruparse. Si desea
obtener ms informacin, consulte el tema Agrupacin difusa en el captulo 11 el p. 236.

Conceptos no extrados. Supongamos que espera encontrar determinados conceptos extrados,

pero al revisar el texto del registro detecta que algunas palabras o frases no se han extrado. A
menudo, este tipo de palabras son verbos o adjetivos en los que no se suele estar interesado.
Sin embargo, puede que quiera utilizar una palabra o frase que no se haya extrado como
parte de una definicin de categora. Para extraer estos conceptos, puede forzar un trmino
en un diccionario de tipo. Si desea obtener ms informacin, consulte el tema Forzado de
palabras en la extraccin el p. 92.
Muchos de estos cambios pueden realizarse directamente desde el panel Resultados extrados o el
panel Datos seleccionando uno o ms elementos y pulsando con el botn derecho del ratn para
acceder a los mens contextuales.
Una vez realizados los cambios pertinentes, el color de fondo del panel cambia para indicar que
debe repetir la extraccin para ver los cambios. Si desea obtener ms informacin, consulte el
tema Extraccin de datos el p. 82. Si est trabajando con conjuntos de datos voluminosos, puede
resultar ms eficaz repetir la extraccin despus de realizar varios cambios en lugar de hacerlo
despus de cada cambio.
Nota: Puede ver el conjunto completo de recursos lingsticos editables que se utilizan para
generar los resultados de la extraccin en la vista Editor de recursos (Ver > Editor de recursos).
Estos recursos aparecen en esta vista en forma de bibliotecas y diccionarios. Puede personalizar
los conceptos y los tipos directamente en las bibliotecas y en los diccionarios. Si desea obtener
ms informacin, consulte el tema Trabajo con bibliotecas en el captulo 9 el p. 202.

Adicin de sinnimos
Los Sinnimos asocian dos o ms palabras con el mismo significado. Los sinnimos se utilizan a
menudo para agrupar trminos con sus abreviaturas, o para agrupar palabras que suelen escribirse
mal con la ortografa correcta. Con el uso de los sinnimos, la frecuencia del concepto objetivo
es mayor, lo cual facilita mucho la deteccin de informacin similar que se presenta de distintas
formas en los datos de texto.
Las bibliotecas y las plantillas de los recursos lingsticos que se proporcionan con el
producto contienen muchos sinnimos predefinidos. Sin embargo, si detecta sinnimos que no se
reconocen, puede definirlos para que la prxima vez que realice una extraccin puedan detectarse.
El primer paso es decidir cul ser el concepto objetivo. El concepto objetivo es aquel bajo el
que desea agrupar todos los trminos sinnimos en los resultados finales. Durante la extraccin,
los sinnimos se agrupan bajo este concepto objetivo. El segundo paso es identificar todos los
sinnimos de este concepto. El concepto objetivo se sustituye por todos sus sinnimos en la
extraccin final. Para que un trmino sea considerado sinnimo, debe estar extrado. Sin embargo,
no es necesario extraer el concepto objetivo para que se produzca la sustitucin. Por ejemplo,
si desea que inteligente se sustituya por listo, el trmino inteligente se considera
sinnimo y listo se considera concepto objetivo.
Si crea una nueva definicin de sinnimo, se aade un nuevo concepto objetivo al diccionario.
A continuacin debe aadir sinnimos al concepto objetivo. Siempre que cree o edite sinnimos,
estos cambios quedarn registrados en los diccionarios de sinnimos del Editor de recursos. Si
desea ver el contenido completo de estos diccionarios de sinnimos o si desea realizar un nmero

88
Captulo 5

importante de cambios, puede trabajar directamente en Editor de recursos. Si desea obtener ms


informacin, consulte el tema Diccionarios de sustitucin/sinnimos en el captulo 10 el p. 225.
Los sinnimos nuevos se guardarn automticamente en la primera biblioteca del rbol de
bibliotecas de la Editor de recursos vistapor defecto, es la Biblioteca local.
Nota: Si busca una definicin de sinnimo y no puede encontrarla en los mens contextuales o
directamente en Editor de recursos, es posible que se produzca una coincidencia con la tcnica
de agrupacin difusa interna. Si desea obtener ms informacin, consulte el tema Agrupacin
difusa en el captulo 11 el p. 236.
Para crear un sinnimo nuevo
E En el panel Resultados extrados o en el panel Datos, seleccione el concepto o conceptos para los

que desea crear un sinnimo nuevo.


E Desde los mens, seleccione Edicin > Aadir a sinnimo > Nuevo. Aparecer el cuadro de dilogo

Crear sinnimo.
Figura 5-7
Cuadro de dilogo Crear sinnimo

E Escriba un concepto objetivo en el cuadro de texto Objetivo. Se trata del objetivo bajo el que

se agruparn todos los sinnimos.


E Si desea aadir ms sinnimos, escrbalos en el cuadro de lista Sinnimos. Utilice el separador

global para separar cada trmino de sinnimo. Si desea obtener ms informacin, consulte el tema
Opciones: pestaa Sistema en el captulo 2 el p. 18.
E Pulse en Aceptar para aplicar los cambios. El cuadro de dilogo se cierra y el color de fondo

del panel Resultados extrados cambia para indicar que debe repetir la extraccin para ver los
cambios. Si tiene previstos varios cambios, realcelos antes de repetir la extraccin.
Para aadir un sinnimo
E En el panel Resultados extrados o en el panel Datos, seleccione el concepto o conceptos para los

que desea aadir una definicin de sinnimo existente.


E Desde los mens, seleccione Edicin > Aadir a sinnimo > . El men muestra un conjunto de

sinnimos, y el creado ms recientemente figura al principio de la lista. Seleccione el nombre


del sinnimo al que desea aadir los conceptos seleccionados. Si encuentra el sinnimo que est
buscando, seleccinelo; acto seguido los conceptos seleccionados se aaden a dicha definicin

89
Extraccin de datos

de sinnimo. Si no lo encuentra, seleccione Ms para mostrar el cuadro de dilogo Todos los


sinnimos.
Figura 5-8
Cuadro de dilogo Todos los sinnimos

E En el cuadro de dilogo Todos los sinnimos, puede ordenar la lista por orden de clasificacin

natural (orden de creacin) o en sentido ascendente o descendente. Seleccione el nombre del


sinnimo al que desea aadir los conceptos seleccionados y pulse en Aceptar. El cuadro de dilogo
se cierra y los conceptos se aaden a la definicin de sinnimos.

Adicin de conceptos a tipos


Cuando se ejecuta una extraccin, los conceptos extrados se asignan a tipos determinados con
la pretensin de agrupar los trminos que tienen algo en comn. IBM SPSS Text Analytics
for Surveys se proporciona con muchos tipos incorporados. Si desea obtener ms informacin,
consulte el tema Tipos incorporados en el captulo 10 el p. 216. conceptos que no se encuentran
en ningn diccionario de tipo pero que se extraen del texto se tipifican automticamente como
<Unknown>.
Cuando revise los resultados, es posible que encuentre algunos conceptos en un tipo que en
realidad desea que se asigne a otro concepto, o un grupo de palabras que en realidad pertenece
a un nuevo tipo por s mismo. En estos casos, puede reasignar estos conceptos a otro tipo o
crear un tipo nuevo.
Por ejemplo, supongamos que est trabajando con los datos de una encuesta relacionada con
el mundo automovilstico, y le interesa que la categorizacin se centre en diferentes mbitos de
los vehculos. Puede crear un tipo llamado <Salpicadero> para agrupar todos los conceptos
relacionados con los contadores y los botones que suelen encontrarse en el tablero de instrumentos
de los vehculos. A continuacin puede asignar conceptos como medidor de combustible,
radiador, radio y cuentakilmetros a este nuevo tipo.
En otro ejemplo, supongamos que est trabajando con los datos de una encuesta relacionada
con el mbito universitario, y en la extraccin se ha categorizado el trmino Ramon Llull (la
universidad) como un tipo de <Person> en lugar de hacerlo como un tipo <Organization>. En
este caso, puede aadir este concepto al tipo <Organization>.

90
Captulo 5

Siempre que se crea un tipo o se aaden conceptos a un tipo en una lista de trminos del
tipo, estos cambios quedan registrados en los diccionarios de tipo en las bibliotecas de recursos
lingsticos de Editor de recursos. Si desea ver el contenido de estas bibliotecas o si desea realizar
un nmero importante de cambios, puede trabajar directamente en Editor de recursos. Si desea
obtener ms informacin, consulte el tema Adicin de trminos en el captulo 10 el p. 219.
Para aadir un concepto a un tipo
E En el panel Resultados extrados o en el panel Datos, seleccione los conceptos que desea aadir a

un tipo existente.
E Pulse el botn derecho del ratn para abrir el men contextual.
E Desde los mens, seleccione Edicin > Aadir a tipo >. El men muestra un conjunto de tipos, y

el creado ms recientemente figura al principio de la lista. Seleccione el nombre del tipo al que
desea aadir los conceptos seleccionados. Si encuentra el nombre del tipo que est buscando,
seleccinelo; acto seguido los conceptos seleccionados se aaden a dicho tipo. Si no lo encuentra,
seleccione Ms para mostrar el cuadro de dilogo Todos los tipos.
Figura 5-9
Cuadro de dilogo Todos los tipos

E En el cuadro de dilogo Todos los tipos, puede ordenar la lista por orden de clasificacin natural

(orden de creacin) o en sentido ascendente o descendente. Seleccione el nombre del tipo al que
desea aadir los conceptos seleccionados y pulse en Aceptar. El cuadro de dilogo se cierra y
se aadirn como trminos al tipo.
Para crear un tipo nuevo
E En el panel Resultados extrados o en el panel Datos, seleccione los conceptos para los que desea

crear un tipo nuevo.


E Desde los mens, seleccione Edicin > Aadir a tipo > Nuevo. Aparecer el cuadro de dilogo

Propiedades de tipo.

91
Extraccin de datos
Figura 5-10
Cuadro de dilogo Propiedades de tipo

E Escriba un nombre nuevo para este tipo en el cuadro de texto Nombre y realice los cambios

necesarios en el resto de los campos. Si desea obtener ms informacin, consulte el tema Creacin
de tipos en el captulo 10 el p. 217.
E Pulse en Aceptar para aplicar los cambios. El cuadro de dilogo se cierra y el color de fondo

del panel Resultados extrados cambia para indicar que debe repetir la extraccin para ver los
cambios. Si tiene previstos varios cambios, realcelos antes de repetir la extraccin.

Exclusin de conceptos de la extraccin


Al revisar los resultados puede encontrar, ocasionalmente, conceptos que no deseaba que se
extrajeran ni que se utilizaran en ninguna tcnica automtica de generacin de categoras. En
algunos casos, estos conceptos tienen una frecuencia muy alta y son totalmente intrascendentes en
su anlisis. En ese caso, puede marcar un concepto para que se excluya de la extraccin final. Por
lo general, los conceptos que aada a esta lista sern palabras o frases de relleno que se utilizan en
el texto para conferir continuidad, pero que no aportan informacin relevante y que pueden cargar
innecesariamente los resultados de la extraccin. Si aade conceptos al diccionario de exclusin,
tendr la seguridad de que no se extraern nunca.
Al excluir estos conceptos, la prxima vez que realice la extraccin desaparecern de los
resultados de la misma todas las variaciones de los conceptos excluidos. Si el concepto sigue
apareciendo como descriptor en una categora, permanecer en ella con el indicador cero despus
de una reextraccin.
Cuando realiza la exclusin, estos cambios quedan registrados en un diccionario de exclusin
en el Editor de recursos. Si desea ver todas las definiciones excluidas y editarlas, puede trabajar
directamente en Editor de recursos. Si desea obtener ms informacin, consulte el tema
Diccionarios de exclusin en el captulo 10 el p. 231.

92
Captulo 5

Para excluir conceptos


E En el panel Resultados extrados o en el panel Datos, seleccione los conceptos que desea excluir

de la extraccin.
E Pulse el botn derecho del ratn para abrir el men contextual.
E Seleccione Excluir de extraccin. El concepto se aade al diccionario de exclusin de Editor de

recursos y el color de fondo del panel Resultados extrados cambia para indicar que debe repetir la
extraccin para ver los cambios. Si tiene previstos varios cambios, realcelos antes de repetir la
extraccin.
Nota: Las palabras que excluya se guardarn automticamente en la primera biblioteca del rbol
de bibliotecas en el Editor de recursospor defecto, es la Biblioteca local.

Forzado de palabras en la extraccin


Al revisar los datos de texto en el panel Datos despus de la extraccin, puede encontrar que
algunas palabras o frases no se han extrado. A menudo, este tipo de palabras son verbos o
adjetivos en los que no se suele estar interesado. Sin embargo, puede que quiera utilizar una
palabra o frase que no se haya extrado como parte de una definicin de categora.
Si desea que se extraigan estas palabras o frases, tiene dos opciones:

Forzar un trmino dentro de una biblioteca de tipos. Si desea obtener ms informacin,


consulte el tema Forzado de trminos en el captulo 10 el p. 222.

Aadir las palabras directamente a una definicin de categora existente. Esta alternativa suele
utilizarse si la primera opcin no proporciona los resultados esperados. Si desea obtener ms
informacin, consulte el tema Coincidencia de texto en las categoras en el captulo 6 el p. 162.

Importante: Marcar un trmino en el diccionario como forzado no es infalible. Esto significa que

aunque haya aadido un trmino explcitamente en un diccionario, es posible que no siempre est
presente en el panel Resultados extrados despus de haber repetido la extraccin, o puede que
aparezca pero no exactamente como lo especific. Aunque esta circunstancia es rara, puede
ocurrir cuando una palabra o frase ya se haba extrado como parte de una frase ms larga. Para
evitarlo, aplique la opcin Completo (sin compuestos) a este trmino en el diccionario de tipo. Si
desea obtener ms informacin, consulte el tema Adicin de trminos en el captulo 10 el p. 219.

Captulo

Categorizacin de los datos de texto

En IBM SPSS Text Analytics for Surveys puede crear categoras que representan, en
esencia, temas o conceptos de mximo nivel que captan las ideas, conocimientos y actitudes
clave expresados en el texto.
Las categoras tambin pueden tener una estructura jerrquica, lo que significa que pueden
contener subcategoras y estas subcategoras pueden tambin tener sus propias subcategoras y as
sucesivamente. Puede importar estructuras de categoras predefinidas, antes denominadas marcos
de cdigo, con categoras jerrquicas as como crear estas categoras jerrquicas en el producto.
De hecho, las categoras jerrquicas le permiten crear una estructura de rbol con una o ms
subcategoras para agrupar elementos como reas de temas o conceptos diferentes de manera ms
precisa. Un ejemplo sencillo puede estar relacionado con actividades de ocio; al responder a una
pregunta como Qu actividad le gustara hacer si tuviera ms tiempo?, puede tener categoras
principales como deportes, actividades artsticas, pesca, etc.; bajando un nivel, debajo de deportes,
puede tener subcategoras para determinar si son juegos con pelota, deportes acuticos, etc.
Las Categoras estn formadas por un grupo de descriptores, como conceptos, tipos, patrones
y reglas de categoras. Todos estos descriptores en conjuncin se utilizan para identificar si un
registro pertenece a una categora determinada. El texto de un registro puede ser explorado para
comprobar si existe texto que coincida con un descriptor. Si se halla una coincidencia, el registro
se asigna a dicha categora. Este proceso se denomina categorizacin.
Puede trabajar con las categoras, generarlas y explorarlas visualmente mediante los datos
que se presentan en los cuatro paneles, cada una de los cuales puede ocultarse o mostrarse
seleccionando su nombre en el men Ver.

Panel Categoras. Genere y administre las categoras en este panel. Si desea obtener ms

informacin, consulte el tema El panel de categoras el p. 94.

Panel Resultados extrados. Explore y trabaje con los conceptos y tipos extrados en este

panel. Si desea obtener ms informacin, consulte el tema Resultados extrados: Conceptos,


tipos y patrones en el captulo 5 el p. 78.

Panel Visualizacin. Explore visualmente las categoras y compruebe su interaccin en este

panel. Si desea obtener ms informacin, consulte el tema Visualizacin de grficos en el


captulo 7 el p. 167.

Panel Datos. Explore y revise el texto que contienen los registros que corresponden a las

selecciones en este panel. Si desea obtener ms informacin, consulte el tema El panel de


datos el p. 97.

Copyright IBM Corporation 2004, 2011.

93

94
Captulo 6
Figura 6-1
Vista Pregunta

Puede comenzar con un conjunto de categoras a partir de un paquete de anlisis de texto (TAP)
o importarlo desde un archivo de categora predefinida, aunque tambin puede crear el suyo
propio. Las categoras pueden crearse automticamente utilizando el slido conjunto de tcnicas
automticas del producto, que utiliza los resultados de la extraccin (conceptos, tipos y patrones)
para generar categoras y sus descriptores. Las categoras pueden tambin crearse manualmente
utilizando conocimientos adicionales relacionados con los datos. Puede crear manualmente
definiciones de categoras arrastrando los resultados de extraccin y soltndolos en las categoras.
Puede enriquecer estas categoras o las categoras vacas aadiendo reglas de categora a una
categora, utilizando sus propias categoras predefinidas, aadiendo una palabra o frase que nunca
se haya extrado antes (denominadocoincidencia de texto), forzando las respuestas directamente
en una categora , o utilizando una combinacin de todas estas tcnicas.
Cada una de las tcnicas y mtodos resulta idnea para determinados tipos de datos y
situaciones, pero a menudo conviene combinar tcnicas en el mismo anlisis para capturar el
rango completo de registros. Y en el proceso de categorizacin, puede ver otros cambios que
deban realizarse en los recursos lingsticos.

El panel de categoras
El panel Categoras es el rea donde puede generar y administrar las categoras. Este panel se
encuentra en el ngulo superior izquierdo de la vista Pregunta y puede accederse a l desde el
men Ver (Ver > Pregunta > su_pregunta). Despus de extraer los conceptos y los tipos de los
datos de texto, puede empezar a generar categoras automticamente utilizando tcnicas como

95
Categorizacin de los datos de texto

inclusin de conceptos, co-ocurrencia, etc., o bien puede hacerlo manualmente. Si desea obtener
ms informacin, consulte el tema Generacin de categoras el p. 110.
Figura 6-2
Panel Categoras sin categoras y con categoras

Cada vez que se crea o actualiza una categora, los registros se exploran automticamente para ver
si algn texto coincide con un descriptor en una categora dada. Si se halla una coincidencia, el
registro se asigna a dicha categora. El resultado final es que la mayora de los registros, si no
todos, se asignan a categoras en funcin de los descriptores de las categoras.
Tabla de rbol de categoras

La tabla de rbol de este panel presenta el conjunto de categoras, subcategoras y descriptores. El


rbol dispone tambin de algunas columnas que presentan informacin para cada elemento de
rbol. La siguientes columnas pueden estar disponibles para su visualizacin:

Cdigo. Muestra el valor del cdigo para cada categora. Esta columna est oculta por defecto.

Puede mostrar esta columna pulsando con el botn derecho del ratn en la tabla de rbol y
seleccionando Mostrar > Cdigo de categora.

Categora. Contiene el rbol de categoras con el nombre de la categora y subcategoras.

Adems, si se pulsa el icono de la barra de herramientas de los descriptores, se mostrar el


conjunto de descriptores.

Descriptores. Proporciona el nmero de descriptores que componen su definicin. Este

recuento no incluye el nmero de descriptores en las subcategoras. No se indica ningn


recuento cuando se muestra un nombre de descriptor en la columna Categoras. Puede mostrar
esta columna pulsando con el botn derecho del ratn en la tabla de rbol y seleccionando
Mostrar > Todos los descriptores.

Documentos. Despus de la puntuacin, esta columna proporciona el nmero de registros

categorizados en una categora y todas sus subcategoras. As, si 5 registros coinciden con su
categora principal en funcin de sus descriptores, y 7 registros diferentes coinciden con una
subcategora en funcin de sus descriptores, el recuento total de documentos para la categora
principal es una suma de los dos; en este caso podran ser 12. Sin embargo, si el mismo
registro coincide con la categora principal y sus subcategoras, el recuento puede ser 11.

96
Captulo 6

Aunque no exista ninguna categora, la tabla sigue conteniendo dos filas. La fila superior, llamada
Todos los registros, es el nmero total de registros. Una segunda fila, llamadaSin categorizar,
muestra el nmero de documentos/registros que todava deben categorizarse.
Para cada categora del panel, hay un pequeo icono amarillo cuadrado delante del nombre
de categora. Si pulsa dos veces en una categora o pulsa con el botn derecho del ratn en la
tabla de rbol y selecciona Definiciones de categora, se abrir el cuadro de dilogo Definiciones
de categora y se presentarn todos los elementos, denominados descriptores, que conforman
su definicin, como conceptos, tipos, patrones y reglas de categora. Si desea obtener ms
informacin, consulte el tema Acerca de las categoras el p. 107. Por defecto, la tabla de rbol de
categoras no muestra los descriptores en las categoras. Si desea ver los descriptores directamente
en el rbol en lugar de en el cuadro de dilogo Definiciones de categoras, pulse en el botn de
conmutacin con el icono lpiz en la barra de herramientas. Cuando se selecciona el botn de
conmutacin, puede expandir su rbol para ver los descriptores.
Recuento de categoras

La columna Documentos en la tabla de rbol de categoras muestra el nmero de registros


categorizados en esa categora especfica. Si los nmeros estn fuera de la fecha de caducidad o
no estn calculados, aparece un icono en esa columna. Tenga en cuenta que el proceso de recuento
puede tardar si trabaja con conjuntos de datos grandes.
Seleccin de categoras en el rbol

Cuando realice selecciones en el rbol, slo puede seleccionar categoras hermanas; o sea, si
selecciona las categoras de nivel superior, no puede seleccionar una subcategora. O si selecciona
2 subcategoras de una categora dada, no puede seleccionar simultneamente una subcategora de
otra categora. Seleccionar una categora que no sea contigua generar la prdida de la seleccin
anterior.
Mostrar en los paneles de datos y visualizacin

Cuando selecciona una fila de la tabla, los paneles Visualizacin y Datos se actualizan
automticamente con informacin correspondiente a su seleccin.
Refinamiento de las categoras

Es posible que la categorizacin no arroje un resultado perfecto para sus datos en el primer intento,
y bien puede haber categoras que desee eliminar o combinar con otras categoras. Tambin es
posible, examinando los resultados de la extraccin, que algunas categoras que no haya creado le
resulten tiles. En tal caso, puede realizar cambios manuales en los resultados para ajustarlos a su
contexto particular. Si desea obtener ms informacin, consulte el tema Edicin y refinamiento de
categoras el p. 156.

Editar o aadir elementos a las definiciones de categora y mover, fusionar o eliminar


categoras. Si desea obtener ms informacin, consulte Edicin y refinamiento de categoras a
continuacin.

Forzar ID de respuesta especficos dentro o fuera de las categoras. Si desea obtener ms


informacin, consulte el tema Forzado de respuestas dentro de categoras el p. 161.

97
Categorizacin de los datos de texto

Aada coincidencias de texto a las categoras para capturar respuestas que contengan el mismo
texto en la categora. Si desea obtener ms informacin, consulte el tema Coincidencia de
texto en las categoras el p. 162.

Aadir reglas de categora a una categora para clasificar automticamente las respuestas en
una categora basada en una expresin lgica. Si desea obtener ms informacin, consulte el
tema Uso de reglas de categora el p. 145.

Visualizar de qu forma colaboran las categoras entre s. Si desea obtener ms informacin,


consulte el tema Visualizacin de grficos en el captulo 7 el p. 167.

Exportar los resultados de la categorizacin. Si desea obtener ms informacin, consulte el


tema Exportacin de los resultados de la categorizacin en el captulo 4 el p. 53.

El panel de datos
A medida que crea las categoras, en ocasiones puede necesitar revisar parte de los datos del texto
con los que est trabajando. Por ejemplo, si crea una categora donde se categorizan 640 registros,
puede ver parte de los registros o todos y comprobar el texto que se ha escrito en realidad. Puede
revisar los registros en el panel Datos, que se encuentra abajo a la derecha. Si no est visible por
defecto, elija Ver > Paneles > Datos en los mens.
Este panel presenta, en formato de tabla, los registros de respuesta de los datos con final
abierto. En funcin de lo que haya seleccionado en los otros paneles de esta vista, en el panel
solo aparecern los registros correspondientes. Por ejemplo, si selecciona un concepto en el panel
Resultados extrados, solo los registros que contengan dicho concepto (y los trminos asociados)
aparecern en el panel Datos.
Siempre que seleccione un concepto o una categora en otro panel y se muestren los datos, los
conceptos (y los trminos asociados) que se encuentran en dichos registros aparecen resaltados en
color para que pueda identificarlos fcilmente en el texto. La codificacin por colores corresponde
a los tipos a los que pertenecen los conceptos. Tambin puede pasar el ratn por encima de los
elementos con codificacin por color para mostrar el concepto bajo el que se extrajo y el tipo al
que se asign. El texto que no se ha extrado aparece en negro. Generalmente, estas palabras no
extradas suelen ser conectores (y o con), pronombres (mi o ellos), y verbos (es, tiene o tomar).

98
Captulo 6
Figura 6-3
Panel Datos

Nota: Para mostrar todos los registros de una pregunta determinada en el panel datos, pulse en el
nodo Todos los registros en la parte superior del panel Categoras.
Por defecto, el panel Datos muestra tres columnas (ID, Respuesta y Categoras). Sin embargo,
puede aadir columnas adicionales en este panel. Las columnas posibles son las siguientes:

ID. Enumera el registro o el identificador de documento (ID) si se import alguno.

Respuesta. Enumera los datos de texto de los que se extrajeron conceptos y tipos.

Categoras. Enumera cada una de las categoras a las que pertenece un registro. Cuando

se muestra esta columna, la actualizacin del panel Datos puede tardar un poco ms hasta
mostrar la informacin ms actualizada. Las categoras se enumeran en esta columna segn
su relevancia en el registro. Si desea obtener ms informacin, consulte el tema Relevancia de
categora el p. 99.

Forzar dentro. Enumera las categoras en las que ha forzado una respuesta. Las respuestas

pueden forzarse dentro de la categora a travs de la opcin de men Editar > Forzar dentro. Si
desea obtener ms informacin, consulte el tema Forzado de respuestas dentro de categoras
el p. 161.

Forzar fuera. Enumera las categoras de las que ha eliminado una respuesta. Las respuestas

pueden forzarse fuera de una categora a travs de la opcin de men Editar > Forzar fuera.
Generalmente, se utiliza cuando el sarcasmo de un encuestado hace que una respuesta se
categorice mal. Si desea obtener ms informacin, consulte el tema Forzado de respuestas
dentro de categoras el p. 161.

99
Categorizacin de los datos de texto

Coincidencia de texto. Enumera las coincidencias de texto que se encuentran para cada

respuesta. Pueden definirse cadenas de texto para forzar que texto especfico forme parte de
una definicin de categora independientemente de si dicha cadena se ha extrado o no. Si
desea obtener ms informacin, consulte el tema Coincidencia de texto en las categoras
el p. 162.

Recuento de categora. Proporciona el nmero total de categoras a la que pertenece la

respuesta correspondiente a esta pregunta.

Ordenacin de relevancia. Proporciona un orden para cada registro de una categora. Este

orden muestra el grado de adecuacin del registro en la categora si se compara con otros
registros de la misma categora. Seleccione una categora en el panel Categoras (arriba a la
izquierda) para ver el orden en esta columna. Si desea obtener ms informacin, consulte
el tema Relevancia de categora el p. 99.

Marcas de respuesta. Aade una columna que muestra cualquier marca de respuesta que

pueda estar utilizando. Si pulsa en el interior de esta columna, puede cambiar el tipo de
marca que asigne a cada respuesta.

<cualquier nombres de variable de referencia>. Aade una columna para la variable de

referencia seleccionada en el panel Datos. Si no ha importado ninguna variable de referencia,


aqu no se propondr ninguna. Hay una columna individual disponible para cada variable
de referencia. Si desea obtener ms informacin, consulte el tema Seleccin de variables
en el captulo 3 el p. 34.
Para mostrar otras columnas del panel Datos
E Desde el interior del panel Datos, pulse con el botn derecho del ratn en una cabecera de

columna para abrir un men contextual.


E En el men elija Mostrar columnas, y luego seleccione la columna que desea mostrar en el panel

Datos. La nueva columna aparece en el panel.


Nota: Forzar respuestas dentro y fuera de las categoras permite sustituir las definiciones de
categora creadas por las tcnicas automticas de generacin de categoras sin cambiar la
definicin real de la categora. Si desea obtener ms informacin, consulte el tema Forzado
de respuestas dentro de categoras el p. 161.

Relevancia de categora
Para mejorar la generacin de categoras, puede revisar la relevancia de los registros de cada
categora, as como la relevancia de todas las categoras a las que pertenece un registro.
Relevancia de una categora en un registro

Cuando aparece un registro en el panel Datos, todas las categoras a las que pertenece se muestran
en una lista en la columna Categoras. Cuando un registro pertenece a varias categoras, las
categoras de esta columna aparecen en orden de mayor a menor relevancia. Se considera que la
categora que se muestra en primer lugar es la que mejor se corresponde con este registro. Si desea
obtener ms informacin, consulte el tema El panel de datos el p. 97.

100
Captulo 6

Relevancia de un registro en un categora

Cuando selecciona una categora, puede revisar la relevancia de cada uno de sus registros
en la columna Ordenacin de relevancia en el panel Datos. Esta ordenacin de relevancia
indica el grado de idoneidad con el que el registro se adapta a la categora seleccionada si
se compara con el resto de los registros de dicha categora. Para ver la ordenacin de los
registros de una sola categora, seleccione la categora en el panel Categoras (situado arriba a
la izquierda) y la ordenacin del registro aparece en la columna. Esta columna no puede verse
de manera predeterminada, pero puede seleccionar la opcin para mostrarla. Si desea obtener
ms informacin, consulte el tema El panel de datos el p. 97.
Cuanto menor sea el nmero del orden del registro, mejor ser el ajuste o mayor ser la
relevancia de este registro para la categora seleccionada, de tal forma que 1 es el mejor ajuste.
Si hay ms de un registro con la misma relevancia, cada uno aparece con el mismo grado de
ordenacin seguido de un signo igual (=) para indicar que tienen la misma relevancia. Por
ejemplo, puede tener los valores de ordenacin siguientes 1=, 1=, 3, 4, etc.; significa que hay dos
registros que se consideran como mejor opcin de relacin para esta categora.
Sugerencia: Puede aadir el texto del registro ms relevante a la anotacin de categora como
ayuda para proporcionar una mejor descripcin de la categora. Aada el texto directamente desde
el panel Datos seleccionando el texto y eligiendo Categoras > Aadir a anotacin en los mens.
Figura 6-4
Panel Datos que muestra la Ordenacin de relevancia y de categoras

101
Categorizacin de los datos de texto

Mtodos y estrategias para crear categoras


Si todava no ha realizado la extraccin o sus resultados estn desactualizados, el uso de una de
estas tcnicas de ampliacin o generacin de categoras le indicar la realizacin de una extraccin
automtica. Una vez aplicada la tcnica, los conceptos y tipos que estaban agrupados en una
categora siguen estando disponibles para la generacin de categoras mediante otras tcnicas.
Esto significa que puede ver un concepto en varias categoras a menos que decida no reutilizarlos.
Para ayudarle a crear las mejores categoras, revise lo siguiente:

Mtodos para crear categoras

Estrategias para crear categoras

Consejos para crear categoras

Mtodos para crear categoras


Puesto que cada conjunto de datos es exclusivo, el nmero de mtodos para crear categoras y el
orden en el que los aplique puede cambiar con el tiempo. Adems, puesto que los objetivos de
la minera de texto puede diferir de un conjunto de datos a otro, puede que deba experimentar
con diferentes mtodos para comprobar con cul de ellos se obtiene el mejor resultado para los
datos de texto determinados. Ninguna de las tcnicas automticas categorizar los datos con
exactitud, por lo que se recomienda que busque y aplique una o ms tcnicas automticas que
se adapten bien a sus datos.
Aparte de utilizar paquetes de anlisis de texto (TAP, *.tap) con conjuntos de categoras
pregeneradas, tambin puede categorizar sus respuestas utilizando una combinacin de los
mtodos siguientes:

Tcnicas de generacin automticas. Hay disponibles varias opciones de categoras basadas en

frecuencia y basadas en lingstica para generar categoras automticamente. Si desea obtener


ms informacin, consulte el tema Generacin de categoras el p. 110.

Tcnicas de ampliacin automticas. Hay disponibles varias tcnicas lingsticas para ampliar

las categoras existentes aadiendo y mejorando los descriptores para que capturen ms
registros. Si desea obtener ms informacin, consulte el tema Ampliacin de categoras
el p. 125.

Tcnicas manuales. Hay varios mtodos manuales, como la funcin de arrastrar y soltar. Si

desea obtener ms informacin, consulte el tema Creacin manual de categoras el p. 129.

Marcos de cdigo. Importe sus propios marcos de cdigo, o copie y pegue cdigos en el

administrador de marcos de cdigos. Si desea obtener ms informacin, consulte el tema


Importacin de categoras predefinidas el p. 132.

Estrategias para crear categoras


La siguiente lista de estrategias no es exhaustiva en absoluto, pero puede proporcionarle algunas
ideas sobre cmo afrontar la generacin de las categoras.

Cuando inicie un proyecto, seleccione un conjunto de categoras a partir de un paquete


de anlisis de texto (TAP) para que pueda iniciarlo con algunas categoras pregeneradas.
Estas categoras pueden categorizar suficientemente el texto desde el primer momento. Sin

102
Captulo 6

embargo, si desea aadir ms categoras, puede editar los valores de Generar categoras
(Categoras > Configuracin de generacin). Abra el cuadro de dilogo Configuracin avanzada:
lingstica, seleccione la opcin de entrada de Categora Resultados de extraccin no utilizados
y cree las categoras adicionales.

Cuando inicie un proyecto, seleccione un conjunto de categoras de un TAP. A continuacin,


arrastre los conceptos o patrones no usados y sultelos en las categoras que considere
apropiadas. A continuacin, ample las categoras existentes que acaba de editar (Categoras
> Ampliar categoras) para obtener ms descriptores relacionados con los descriptores de la
categora existente.

Genere categoras automticamente utilizando la configuracin avanzada de lingstica


(Categoras > Generar categoras). A continuacin, refine las categoras manualmente
eliminando descriptores, eliminando categoras o fusionando categoras similares hasta que
est conforme con las categoras resultantes. Adems, si gener categoras originalmente
sin utilizar la opcin Generalizar con comodines cuando sea posible, tambin puede intentar
simplificar las categoras automticamente utilizando Ampliar categoras con la opcin
Generalizar.

Importe un archivo de categora predefinida con anotaciones y/o nombres de categoras muy
descriptivos. Adems, si originalmente realiz una importacin sin seleccionar la opcin de
importar o generar descriptores a partir de nombres de categora, ms adelante puede utilizar
el cuadro de dilogo Ampliar categoras y seleccionar la opcin Extender categoras vacas
con descriptores generados desde el nombre de categoras. A continuacin, ample dichas
categoras una segunda vez pero esta vez utilice las tcnicas de agrupacin.

Cree manualmente un primer conjunto de categoras clasificando conceptos o patrones de


conceptos por frecuencia, y luego arrastrando y soltando los ms interesantes en el panel
Categoras. Una vez que tenga ese conjunto inicial de categoras, utilice la funcin Ampliar
(Categoras > Ampliar categoras) para ampliar y refinar todas las categoras seleccionadas de
manera que incluyan otros descriptores relacionados y pueda haber por lo tanto ms registros
coincidentes.

Despus de aplicar estas tcnicas, recomendamos que revise las categoras resultantes y emplee
tcnicas manuales para realizar pequeos ajustes, eliminar clasificaciones incorrectas o aadir
registros o palabras que pueden haberse dejado de lado. Adems, puesto que el uso de diferentes
tcnicas tambin puede generar categoras repetidas, puede fusionar o eliminar categoras si
es necesario. Si desea obtener ms informacin, consulte el tema Edicin y refinamiento de
categoras el p. 156.

Consejos sobre la creacin de categoras


Para facilitar la creacin de categoras mejores, puede revisar algunos conceptos que le ayudarn
a tomar decisiones.

103
Categorizacin de los datos de texto

Consejos sobre la relacin de categora a respuesta

Cuando se crean cdigos para una pregunta con final cerrado, como Cundo fue la ltima vez
que visit la tienda de oportunidades?, las categoras en las que iran las respuestas deben ser
mutuamente excluyentes y exhaustivas. Este principio no se aplica necesariamente al anlisis de
texto cualitativo por al menos dos razones:

En primer lugar, una regla emprica dice que cuanto ms largo sea el registro de texto, ms
diversas son las ideas y las opiniones que se expresan. As, las oportunidades de que puedan
asignarse numerosas categoras a un registro aumentan considerablemente.

En segundo lugar, suele haber varias formas de agrupar e interpretar los registros de texto
que no estn separados de manera lgica. En el caso de una encuesta con preguntas con
final abierto sobre las tendencias polticas del encuestado, se pueden crear categoras, como
liberal y conservador o republicano y demcrata, as como otras categoras ms especficas,
como socio-liberal, econmicamente conservador, etc. Estas categoras no tienen por qu
ser mutuamente excluyentes y exhaustivas.

Consejos sobre el nmero de categoras que conviene crear

Excepto en el caso de una pregunta con final abierto extremadamente simple, nunca puede intuirse
con rotundidad cuntas categoras pueden crearse. El nmero de categoras no es un aspecto del
que deba preocuparse. La creacin de categoras debera derivar directamente de los propios
datosen cuanto detecte algo interesante en relacin a los objetivos de esta encuesta, puede crear
una categora para que represente esas actitudes e ideas.

Frecuencia de la categora. Para que una categora sea til, debe contener un nmero mnimo

de registros. Es posible que encuentre opiniones un tanto intrigantes en unos pocos registros,
pero si son solo uno o dos de entre mil registros, puede que esas opiniones no sean tan
frecuentes como para que resulten tiles.

Complejidad. Cuantas ms categoras cree, ms informacin deber leer y resumir despus de

completar el anlisis. Sin embargo, el hecho de que haya demasiadas categoras, adems de
aadir complejidad, no aporta necesariamente detalles tiles.
Desgraciadamente, no existe ninguna regla que determine cuntas categoras se consideran
demasiadas, ni para determinar el nmero mnimo de registros por categora. Deber tomar ese
tipo de decisiones segn las demandas de su situacin particular.
Sin embargo, podemos ofrecerle consejos acerca de dnde comenzar. Aunque el nmero de
categoras no debera ser excesiva, en los primeros estadios del anlisis se recomienda pecar por
exceso que por defecto. Agrupar categoras que sean relativamente similares resulta ms fcil que
dividir los casos en nuevas categoras, de manera que una estrategia de trabajo de pasar de ms
a menos categoras suele ser una buena tcnica. Teniendo en cuenta la naturaleza repetitiva de
la minera de texto y la facilidad con la que puede realizarse con un programa de software, se
considera aceptable generar ms categoras al comienzo.

104
Captulo 6

Seleccin de los mejores descriptores


La siguiente informacin contiene varias directrices sobre cmo seleccionar o generar los mejores
descriptores (conceptos, tipos, patrones TLA y reglas de categora) para sus categoras. Los
descriptores son los cimientos de las categoras. Cuando todo el texto de un registro o parte del
mismo coincide con un descriptor, el registro se vincula con la categora.
A menos que un descriptor contenga o se corresponda con un concepto o patrn extrado, no se
vincular con ningn registro. Por lo tanto, utilice conceptos, tipos, patrones y reglas de categora
como se describe en las siguientes secciones.
Como los conceptos no slo se representan a s mismos sino que tambin representan un
conjunto de trminos subyacentes que pueden ir desde formas en singular/plural hasta sinnimos,
pasando por variaciones ortogrficas, slo se debe utilizar el propio concepto como descriptor o
como parte de un descriptor. Para obtener ms informacin sobre los trminos subyacentes de
cualquier concepto especfico, pulse en el nombre del concepto en el panel Resultados extrados.
Cuando pase el ratn por encima del nombre del concepto, aparecer una etiqueta con informacin
y se mostrarn los trminos subyacentes encontrados en su texto durante la ltima extraccin.
No todos los conceptos tienen trminos subyacentes. Por ejemplo, si coche y vehculo fueran
sinnimos pero coche se extrajera como concepto con vehculo como trmino subyacente,
entonces slo debe utilizar coche en un descriptor, ya que vincular automticamente un registro
con vehculo.
Conceptos y tipos como descriptores

Utilice un concepto como descriptor cuando quiera encontrar todos los registros que contengan
dicho concepto (o cualquiera de sus trminos subyacentes). En este caso, el uso de una regla de
categora ms compleja no es necesario debido a que el nombre de concepto exacto es suficiente.
Recuerde que cuando utiliza recursos que extraen opiniones, a veces los conceptos pueden variar
durante la extraccin de patrn TLA para capturar el verdadero sentido de la frase (consulte el
ejemplo de la seccin siguiente sobre TLA).
Por ejemplo, la respuesta a una encuesta que indique que las frutas preferidas de cada persona
como La manzana y la pia son las mejores podra dar como resultado la extraccin de
manzana y pia. Al aadir el concepto manzana como descriptor a su categora, todas las
respuestas que contengan el concepto manzana (o cualquiera de sus trminos subyacentes) se
vinculan a dicha categora.
Sin embargo, si slo le interesa saber qu respuestas mencionan manzana del modo que sea,
puede crear una regla de categora como * manzana * y tambin capturar respuestas que
contengan conceptos como manzana, compota de manzana o manzana caramelizada.
Tambin puede capturar todos los registros que contengan conceptos con el mismo tipo
mediante el uso de un tipo como descriptor directamente como <Fruta>. Recuerde que no
puede utilizar * con tipos.
Si desea obtener ms informacin, consulte el tema Resultados extrados: Conceptos, tipos y
patrones en el captulo 5 el p. 78.

105
Categorizacin de los datos de texto

Descriptores y patrones TLA (Anlisis de enlace de texto)

Utilice un resultado de patrn TLA como descriptor cuando quiera capturar ideas ms finas con
ms matices. Cuando el texto se analiza durante la extraccin de TLA, el texto se procesa frase
a frase o clusula a clusula en lugar de tomar el texto completo (el registro). Al considerar
todas las partes de una frase en conjunto, TLA puede identificar opiniones, relaciones entre
dos elementos o, por ejemplo, una negacin y comprender el sentido verdadero. Puede utilizar
patrones de conceptos o patrones de tipo como descriptores.
Por ejemplo, si tuviramos el texto la habitacin no estaba tan limpia, se podran extraer los
siguientes conceptos: habitacin y limpia. Sin embargo, si se hubiera activado la extraccin
de TLA en la configuracin de extraccin, TLA podra detectar que limpia se utiliz con un
sentido negativo y realmente se corresponde con no limpia, lo que es un sinnimo del concepto
sucia. Aqu, puede ver que el uso del concepto limpia como descriptor por s solo coincidira
con este texto pero tambin capturara otros registros que mencionaran la limpieza. Por lo tanto,
sera mejor utilizar el patrn de concepto TLA con sucia como concepto de salida ya que
coincidira con este texto y sera un descriptor ms adecuado.
Reglas empresariales de categora como descriptores

Las reglas de categora son sentencias que clasifican automticamente registros en una categora
que se basa en una expresin lgica utilizando los conceptos, tipos y patrones extrados, as como
operadores booleanos. Por ejemplo, puede escribir una expresin que signifique incluir todos los
registros que contienen el concepto extrado embajada pero no argentina en esta categora.
Puede escribir y utilizar reglas de categora como descriptores en sus categoras para expresar
diferentes ideas mediante los operadores booleanos &, | y !(). Para obtener informacin
detallada sobre la sintaxis de estas reglas y sobre cmo crearlas y editarlas, consulte Uso de
reglas de categora el p. 145

Utilice una regla de categora con el operador booleano & (AND) para buscar registros en los
que se produzcan 2 o ms conceptos. Los 2 o ms conceptos conectados por operadores &
no tienen que aparecer en la misma frase u oracin; pueden hacerlo en cualquier parte del
mismo registro para que se les considere una coincidencia con la categora. Por ejemplo, si
crea la regla de categora comida & barata como descriptor, coincidira con un registro
que contenga el texto la comida era muy cara pero la habitacin era barata a pesar del
hecho de que comida no fuera el sustantivo que va con barata, ya que el texto contiene
tanto comida como barata.

Use una regla de categora con el operador booleano !() (NOT) como descriptor para que le
ayude a encontrar registros en los que ocurren algunas cosas y otras no. Esto puede evitar la
agrupacin de informacin que puede parecer que est relacionada basndose en las palabras
pero no en el contexto. Por ejemplo, si crea la regla de categora <Organizacin> &
!(ibm) como descriptor, coincidir con el siguiente texto SPSS Inc. es una empresa fundada
en 1967 y no coincidir con el siguiente texto la empresa de software fue adquirida por IBM.

106
Captulo 6

Utilice una regla de categora con el operador booleano | (OR) como descriptor para buscar
registros que contengan uno de varios conceptos o tipos. Por ejemplo, si crea la regla de
categora (personal|equipo) & malo como descriptor, coincidir con cualquier registro
en el que se encuentre cualquiera de estos sustantivos junto con el concepto malo.

Utilice tipos en reglas de categora para hacer que sean ms genricas y puedan implementarse
en ms casos. Por ejemplo, si est trabajando con datos de hotel, puede que est muy
interesado en saber lo que piensan los clientes sobre el personal del hotel. Los trminos
relacionados podran incluir palabras como recepcionista, camarero, camarera, recepcin,
mostrador de recepcin, etc. En este caso podra crear un nuevo tipo denominado
<PersonalHotel> y aadir todos los trminos anteriores a dicho tipo. Aunque es
posible crear una regla de categora para cada clase de personal como [* camarera
* & agradable], [* mostrador * & simptico], [* recepcionista * &
servicial], podra crear una nica regla de categora ms genrica utilizando el tipo
<PersonalHotel> para capturar todas las respuestas que obtuvieron opiniones favorables
del personal del hotel con la forma [<PersonalHotel> & <Positivo>].

Nota: Puede utilizar tanto + como & en reglas de categora al incluir patrones TLA en dichas
reglas. Si desea obtener ms informacin, consulte el tema Uso de patrones TLA en las reglas de
categora el p. 148.
Ejemplo de cmo los conceptos, TLA o reglas de categora como descriptores coinciden de manera
diferente

El siguiente ejemplo muestra el modo en que el uso de un concepto como descriptor, regla de
categora como descriptor o patrn TLA como descriptor afecta a cmo se categorizan los
registros. Supongamos que tiene los 5 registros siguientes.

A: Magnfico personal del restaurante, comida excelente y habitacin cmoda y limpia.

B: El personal del restaurante era psimo, pero la habitacin estaba limpia.

C: Habitacin cmoda y limpia.

D: Mi habitacin no estaba demasiado limpia.

E: Limpia.

Como los registros incluyen la palabra limpia y desea capturar esta informacin, podra crear
uno de los descriptores que aparecen en la tabla siguiente. Basndose en lo esencial de lo que
est intentando capturar, podr ver cmo el uso de una clase de descriptor antes que otra puede
producir resultados diferentes.

107
Categorizacin de los datos de texto
Tabla 6-1
Modo de coincidencia entre descriptores y registros del ejemplo

A
coincidencia

B
coincidencia

C
coincidencia

D
coincidencia

E
coincidencia

limpia +
.

coincidencia

[limpia]

coincidencia

coincidencia

coincidencia

coincidencia

Descriptor
limpia

Explicacin
El descriptor es un concepto
extrado. Todos los registros
contenan el concepto limpia,
incluso el registro D, ya que sin TLA
no se sabe automticamente que no
limpia significa sucia segn las
reglas TLA.
El descriptor es un patrn TLA que
representan limpia por s mismo.
Slo ha coincidido con el registro
en el que limpia se extrajo sin
ningn concepto asociado durante la
extraccin de TLA.
El descriptor es una regla de
categora que busca una regla
de TLA que contenga limpia
en solitario o con algo ms. Se
vincularon todos los registros donde
se encontr un resultado de TLA
con limpia independientemente de
si limpia estaba vinculado a otro
concepto como habitacin y en
cualquier espacio.

Acerca de las categoras


Categoras hace referencia a un grupo de conceptos, opiniones o actitudes estrechamente
relacionados. Para que resulte til, una categora debe describirse fcilmente mediante una breve
frase o etiqueta que capte su significado esencial.
Por ejemplo, si est analizando las respuestas de los usuarios en una encuesta sobre un nuevo
detergente, puede crear una categora etiquetada como olor que contenga todas las respuestas que
describan el aroma del producto. Sin embargo, una categora as no diferenciara entre aquellos
que consideraron que el detergente tena un aroma agradable de los que lo encontraron molesto.
Puesto que IBM SPSS Text Analytics for Surveys es capaz de extraer opiniones cuando se
utilizan los recursos adecuados, se podran crear otras dos categoras que identificaran a los
encuestados a los que les gust el olor y a los encuestados a los que no les gust el olor.
Puede crear y trabajar con categoras en el panel Categoras del panel superior izquierdo de
la ventana de anlisis de texto. Cada categora est definida por uno o ms descriptores. Los
Descriptores son conceptos, tipos y patrones, as como reglas de categora, que se han utilizado
para definir una categora.
Si quiere ver los descriptores que conforman una categora especfica, puede expandir la
categora en el rbol. Se muestran unos iconos en el rbol para que pueda identificar fcilmente
cada elemento. Solo el primer nivel define la categora. Si sigue ampliando las definiciones, podr
ver ejemplos de lo que se ha encontrado en los datos.
Cuando se generan categoras automticamente mediante las tcnicas de generacin de
categoras, como la inclusin de conceptos, dichas tcnicas utilizarn conceptos y tipos como
descriptores para crear las categoras. Puede tambin aadir patrones o partes de dichos patrones

108
Captulo 6

como descriptores de categoras. Por ltimo, puede crear reglas de categora manualmente para
utilizarlas como descriptores en las categoras. Si desea obtener ms informacin, consulte el tema
Uso de reglas de categora el p. 145.
Por ejemplo, si aade un tipo a una definicin de categora, los conceptos asignados a dicho
tipo se incluirn automticamente, aunque solo haya unos cuantos presentes en los datos en este
momento. De esta forma es ms fcil reutilizar las definiciones de categora con los datos nuevos.
Si desea obtener ms informacin, consulte el tema Copia de categoras el p. 164. Tambin puede
crear reglas de categora manualmente para utilizarlas como descriptores en las categoras. Si
desea obtener ms informacin, consulte el tema Uso de reglas de categora el p. 145.
Tabla 6-2
Iconos para identificar elementos en las definiciones

Icono

Descripcin
Concepto.
Tipo, que puede expandirse para ver los conceptos que contiene.
Patrn de conceptos, que puede expandirse para ver los conceptos especficos de los patrones.
Patrn de tipo, que puede expandirse al nivel de patrn de conceptos.
Reglas de categora de la categora. Pulse el botn derecho del ratn en el nombre de la
regla para editarla.

Propiedades de categora
Adems de los descriptores, las categoras tambin tienen propiedades que pueden editarse
para cambiar el nombre de las categoras, aadir una etiqueta o anotacin o acceder al cuadro
de dilogo de coincidencia de texto.

109
Categorizacin de los datos de texto
Figura 6-5
Dilogo Propiedades de categora

Existen las propiedades siguientes:

Nombre. Este nombre aparece por defecto en el rbol. Cuando se crea una categora utilizando

una tcnica automtica, se le asigna un nombre automticamente.

Etiqueta. El uso de etiquetas resulta til para crear descripciones de categora con un

significado ms detallado que se utilizan en otros productos o en otras tablas o grficos. Si


elige la opcin de visualizar la etiqueta, sta se utilizar en la interfaz para identificar la
categora. En IBM SPSS Statistics, se exportan como etiquetas variables. En Microsoft
Excel, se exportan como filas individuales.

Cdigo. El nmero de cdigo se corresponde con el valor de cdigo de esta categora. Puede

editar este cdigo en el Administrador de marcos de cdigo. El Administrador de marcos de


cdigo permite editar el nombre, la etiqueta y el cdigo de cada categora, as como copiar y
pegar marcos de cdigo enteros. .

Anotacin. Puede aadir una descripcin breve a cada categora de este campo. Cuando el

dilogo Generar categoras genera una categora, automticamente se aade una nota a esta
anotacin. Tambin puede aadir texto de muestra a una anotacin directamente desde el
panel Datos seleccionando el texto y eligiendo Categoras > Aadir a anotacin en los mens.

Opciones avanzadas de Coincidencia de texto Con el botn Opciones avanzadas, puede aadir

palabras o frases a una definicin de categora. A menudo se utiliza para sustituir una
extraccin extraviada. Si desea obtener ms informacin, consulte el tema Coincidencia de
texto en las categoras el p. 162.

110
Captulo 6

Generacin de categoras
Por un lado puede tener categoras procedentes de un paquete de anlisis de texto, y tambin
puede generar categoras automticamente utilizando una serie de tcnicas lingsticas y de
frecuencia. A travs del cuadro de dilogo de configuracin Generar categoras, puede aplicar las
tcnicas automticas lingsticas y de frecuencia para generar categoras a partir de conceptos o
de patrones de conceptos.
Figura 6-6
Cuadro de dilogo Generar categoras

En general, las categoras pueden estar formadas por diferentes tipos de descriptores (tipos,
conceptos, patrones TLA, reglas de categora). Cuando se generan categoras utilizando las
tcnicas automticas de generacin de categoras, las categoras resultantes se indican despus de
un concepto o de un patrn de conceptos (segn la entrada que haya seleccionado) y contiene un
conjunto de descriptores. Estos descriptores pueden presentarse en forma de reglas de categora o
conceptos e incluyen todos los conceptos relacionados descubiertos por las tcnicas.
Despus de generar las categoras, puede aprender mucho sobre ellas revisndolas en el panel
Categoras o explorndolas en grficos y diagramas. Luego puede utilizar tcnicas manuales para
realizar pequeos ajustes, eliminar clasificaciones incorrectas o aadir registros o palabras que
pueden haberse dejado de lado. Una vez aplicada la tcnica, los conceptos, tipos y patrones que
estaban agrupados en una categora siguen estando disponibles para otras tcnicas. Y puesto que
el uso de diferentes tcnicas tambin puede generar categoras repetidas o inapropiadas, puede

111
Categorizacin de los datos de texto

fusionar o eliminar categoras. Si desea obtener ms informacin, consulte el tema Edicin y


refinamiento de categoras el p. 156.
Importante: En versiones anteriores, las reglas de co-ocurrencia y de sinnimos se colocaban entre
corchetes. En esta versin, los corchetes ahora indican un resultado de patrn de . En su lugar,
las reglas de co-ocurrencia y de sinnimos estarn entre parntesis, por ejemplo (sistemas
de sonido|altavoces).
Para generar categoras
E En los mens elija Categoras > Generar categoras. A menos que haya elegido que no se le

avise nunca, aparecer un cuadro de mensaje.


Figura 6-7
Aviso antes de la generacin

E Elija si desea generar ahora o editar primero la configuracin.

Pulse en Generar ahora para empezar a generar categoras utilizando la configuracin actual.
La configuracin seleccionada de manera predeterminada suele ser suficiente para comenzar
el proceso de categorizacin. El proceso de generacin de categoras comienza y aparece un
dilogo de progreso.

Pulse en Editar para revisar y modificar la configuracin de la generacin.

Entradas

Las categoras se generan a partir de descriptores derivados de cada tipo o patrn de tipos. Por
defecto, en la lista desplegable aparecen seleccionados los patrones de tipo. En esta tabla, puede
seleccionar los tipos individuales o los patrones que se incluirn en el proceso de generacin de
categoras.
Patrones de tipo. Si selecciona patrones de tipo, las categoras se generarn a partir de patrones en

lugar de tipos y conceptos individuales. De esta forma se categorizarn los registros que contengan
un patrn de conceptos que pertenezca al patrn de tipo seleccionado. As pues, si selecciona
el patrn de tipo <Presupuesto> y <Positivo> en la tabla, pueden generarse categoras
como coste & <Positivo> o tarifas & excelentes. La tabla muestra nicamente una
fila por cada combinacin de tipo como <Ubicacin> + <Positiva> y <Positiva> +
<Ubicacin>, y el orden no es relevante para la forma en que se generan las categoras.

112
Captulo 6
Figura 6-8
Dilogo Generar categoras con los patrones de tipo disponibles

Al utilizar patrones de tipo como entrada para la generacin de categoras automtica, a veces
las tcnicas identifican varias maneras de formar la estructura de la categora. Tcnicamente, no
hay una nica manera correcta de producir las categoras; sin embargo, puede que encuentre una
estructura ms adecuada para su anlisis que otra. Para ayudar a personalizar el resultado en este
caso, puede designar un tipo como el foco preferido. Elija este tipo en el campo Estructurar
categoras por tipo de patrn: y la tabla se actualizar para mostrar nicamente los patrones
aplicables que contienen el tipo seleccionado. La mayora de las veces, <Desconocido> estar
preseleccionado. Esto dar como resultado la seleccin de todos los patrones que contengan el
tipo <Desconocido>. La tabla muestra los tipos en orden descendente empezando por el que
tiene el nmero ms alto de registros.
Tipos. Si selecciona tipos, las categoras se generarn a partir de los conceptos que pertenecen a
los tipos seleccionados. Por lo tanto, si selecciona el tipo <Presupuesto> en la tabla, podran
producirse categoras como coste o precio debido a que coste y precio son conceptos
asignados al tipo <Presupuesto>.
De manera predeterminada, slo se seleccionan los tipos que capturan el nmero mximo de
registros . Esta preseleccin permite centrarse rpidamente en los tipos ms interesantes y evitar la
generacin de categoras irrelevantes. La tabla muestra los tipos en orden descendente empezando
por el que tiene el nmero ms alto de registros. Los tipos de la biblioteca Opinions no estn
seleccionados de manera predeterminada en la tabla de tipos.

La entrada que ha seleccionado afecta a las categoras que obtiene. Cuando decida utilizar Tipos
como entrada, podr ver los conceptos relacionados claramente con ms facilidad. Por ejemplo,
si genera categoras utilizando Tipos como entrada, podra obtener una categora Fruta con
conceptos como manzana, pera, ctricos, naranja, etc. Si por el contrario selecciona
Patrones de tipo como entrada y, a continuacin, selecciona el patrn <Desconocido> +
<Positive>, por ejemplo, entonces podra obtener una categora fruta + <Positiva>
con uno o dos tipos de fruta como fruta + sabrosa y manzana + buena. Este segundo
resultado slo muestra 2 patrones de conceptos porque las otras apariciones de frutas no tienen por
qu haberse calificado positivamente. Aunque esto puede ser suficiente para sus datos de texto
actuales, en estudios longitudinales donde utiliza diferentes conjuntos de documentos, puede que
desee aadir manualmente otros descriptores como ctrico + positivo o utilizar tipos. Si
slo utiliza tipos como entrada, esto le ayudar a encontrar toda la fruta posible.

113
Categorizacin de los datos de texto
Figura 6-9
Dilogo Generar categoras con los patrones de tipo disponibles

Tcnicas

Puesto que cada conjunto de datos es exclusivo, el nmero de mtodos y el orden en el que los
aplique puede cambiar con el tiempo. Puesto que los objetivos de la minera de texto puede
diferir de un conjunto de datos a otro, puede que deba experimentar con diferentes tcnicas para
comprobar con cul de ellas se obtiene el mejor resultado para los datos de texto determinados.
No es necesario que sea un experto en este tipo de configuracin para poder utilizarla. Por
defecto, los valores ms comunes ya aparecen seleccionados. Por lo tanto, puede pasar por alto los
dilogos de configuracin avanzada y empezar a generar categoras directamente. Igualmente, si
realiza cambios aqu, no es necesario que vuelva al dilogo de configuracin cada vez, puesto
que siempre se conservan los ltimos valores.
Seleccione las tcnicas lingsticas o de frecuencia y pulse en el botn Configuracin
avanzada para que se muestren los valores de las tcnicas seleccionadas. Ninguna de las tcnicas
automticas categorizar los datos con exactitud, por lo que se recomienda que busque y aplique
una o ms tcnicas automticas que se adapten bien a sus datos. No se pueden utilizar tcnicas
lingsticas y de frecuencia simultneamente para el proceso de generacin.

Tcnicas lingsticas avanzadas. Si desea obtener ms informacin, consulte el p. 113.

Tcnicas de frecuencia avanzadas. Si desea obtener ms informacin, consulte el p. 123.

Configuracin avanzada: Lingstica


Cuando se generan categoras, puede seleccionar entre una serie de tcnicas lingsticas avanzadas
para la generacin de categoras, como por ejemplo la derivacin de raz de conceptos, inclusin
de conceptos, redes semnticas (solo en ingls) y reglas de co-ocurrencia. Estas tcnicas pueden
utilizarse solas o combinadas entre s para crear categoras.
Tenga en cuenta que, puesto que cada conjunto de datos es exclusivo, el nmero de mtodos
y el orden en el que los aplique puede cambiar con el tiempo. Puesto que los objetivos de la
minera de texto puede diferir de un conjunto de datos a otro, puede que deba experimentar
con diferentes tcnicas para comprobar con cul de ellas se obtiene el mejor resultado para los
datos de texto determinados. Ninguna de las tcnicas automticas categorizar los datos con
exactitud, por lo que se recomienda que busque y aplique una o ms tcnicas automticas que
se adapten bien a sus datos.

114
Captulo 6
Figura 6-10
Cuadro de dilogo Configuracin avanzada: Lingstica para generar categoras

Entrada y salida
Entrada de categoras. Seleccione a partir de qu se generarn las categoras:

Resultados de extraccin no usados. Esta opcin permite que se generen categoras a partir

de los resultados de extraccin que no se utilizan en ninguna categora existente. De esta


manera se minimiza la tendencia que tienen los registros de hacer coincidir varias categoras y
limita el nmero de categoras que se generan.

Todos los resultados de la extraccin. Esta opcin permite generar categoras utilizando los

resultados de extraccin. Esto resulta especialmente til cuando no existen categoras, o


existen muy pocas.

115
Categorizacin de los datos de texto

Salida de categoras. Seleccione la estructura general de las categoras que se generarn:

Jerrquico con subcategoras. Esta opcin permite la creacin de subcategoras y

sub-subcategoras. Puede establecer la profundidad de sus categoras seleccionando el nmero


mximo de niveles (campo Niveles mximos creados) que se puede crear. Si selecciona 3, las
categoras podran contener subcategoras y dichas subcategoras tambin podran tener
subcategoras.

Categoras planas (nivel nico). Esta opcin slo permite la creacin de un nivel de categoras,

lo que significa que no se generar ninguna subcategora.


Agrupacin de tcnicas

Cada una de las tcnicas disponibles resulta idnea para determinados tipos de datos y situaciones,
pero a menudo conviene combinar tcnicas en el mismo anlisis para capturar el rango completo
de registros. Puede ver un concepto en diversas categoras o detectar categoras redundantes.
Derivacin de raz de conceptos. Esta tcnica crea categoras tomando un concepto y buscando
otros conceptos que estn relacionados con el primero analizando si alguno de los componentes de
los conceptos estn morfolgicamente relacionados o comparten races. Esta tcnica es muy til
para identificar conceptos de palabras compuestas sinnimas, puesto que los conceptos de cada
categora generada son sinnimos o tienen un significado muy similar. Funciona con datos de
extensin diversa y genera un nmero ms reducido de categoras compactas. Por ejemplo, el
concepto ocasiones de progreso se agrupara con los conceptos ocasin de progresar
y ocasin de progresin. Si desea obtener ms informacin, consulte el tema Derivacin de
raz de conceptos el p. 118.
Red semntica. Esta tcnica comienza identificando los posibles sentidos de cada concepto a partir

de un amplio ndice de relaciones de palabras, y luego crea categoras agrupando los conceptos
relacionados. Esta tcnica resulta idnea cuando los conceptos son conocidos en la red semntica
y no son muy ambiguos. Es menos idnea si el texto contiene terminologa especfica o jerga
desconocida en la red. Por ejemplo, el concepto manzana golden se podra agrupar con
manzana reineta y manzana fuji puesto que son familia de la golden. En otro ejemplo,
el concepto animal se agrupara con gato y canguro puesto que ambos son hipnimos de
animal. En esta versin esta tcnica est disponible solo para texto en ingls. Si desea obtener
ms informacin, consulte el tema Redes semnticas el p. 121.
Inclusin de conceptos. Esta tcnica genera categoras agrupando los conceptos multitrmino

(palabras compuestas) basndose en si contienen palabras que son subconjuntos o superconjuntos


de una palabra en la otra. Por ejemplo, el concepto seguridad estara agrupado en asiento
de seguridad, cinturn de seguridad y silla infantil de seguridad. Si desea
obtener ms informacin, consulte el tema Inclusin de conceptos el p. 120.
Co-ocurrencia. Esta tcnica crea categoras a partir de las co-ocurrencias que se encuentran en

el texto. La idea radica en que cuando en los documentos y registros a menudo se encuentran
conceptos o patrones de conceptos que aparecen juntos, esa co-ocurrencia refleja una relacin
subyacente que probablemente sea valiosa para las definiciones de categoras. Cuando la
co-ocurrencia de algunas palabras es significativa, se crea una regla de co-ocurrencia que puede
utilizarse como un descriptor de categora para una nueva subcategora. Por ejemplo, si muchos
registros contienen las palabras precio y disponibilidad (pero hay pocos registros que

116
Captulo 6

contengan slo una de las dos), estos conceptos se podran agrupar en una regla de co-ocurrencia,
(precio &disponible) y asignarse a una subcategora de la categora precio por ejemplo.Si
desea obtener ms informacin, consulte el tema Reglas de co-ocurrencia el p. 122.

Nmero mnimo de registros Para ayudar a determinar la relevancia de las co-ocurrencias,

defina el nmero mnimo de registros registros que deben contener una co-ocurrencia
determinada para que se utilice como descriptor en una categora.
Distancia mxima de bsqueda. Seleccione el alcance de bsqueda de las tcnicas antes de
generar las categoras. Cuanto ms bajo sea el valor, menos resultados obtendr; sin embargo,
dichos resultados sern ms precisos y ser ms probable que pueda asociarlos o vincularlos
significativamente entre s. Cuanto ms alto sea el valor, ms resultados se obtienen; sin
embargo, estos resultados pueden ser tambin menos fiables o relevantes. Esta opcin se aplica
globalmente en todas las tcnicas, pero sus resultados son mejores en las co-ocurrencias y en
las redes semnticas.
Evitar el emparejamiento de conceptos especficos. Seleccione esta casilla de verificacin para
detener el proceso de agrupacin o emparejamiento de dos conceptos en el resultado. Para crear o
administrar pares de conceptos, pulse en Administrar parejas. Si desea obtener ms informacin,
consulte el tema Administracin de pares de excepciones de enlace el p. 117.
Generalizar con comodines cuando sea posible. Seleccione esta opcin para que el producto genere
reglas genricas en las categoras utilizando el comodn de asterisco. Por ejemplo, en lugar de
generar varios descriptores como [naranja de mesa + .] y [naranja de zumo + .],
el uso de comodines generara [naranja * + .]. Si generaliza con comodines, obtendr a
menudo exactamente el mismo nmero de registros que antes. Sin embargo, esta opcin tiene
la ventaja de reducir el nmero y simplificar los descriptores de categora. Adems, esta opcin
aumenta la posibilidad de categorizar ms registros utilizando estas categoras en datos de texto
nuevos (por ejemplo, en estudios por fases o longitudinales).
Otras opciones para generar categoras

Adems de seleccionar las tcnicas de agrupacin que se aplicarn, puede editar otras muchas
opciones de generacin, como se indica a continuacin:
Nmero mximo de categoras de creadas. Utilice esta opcin para limitar el nmero de categoras
que pueden generarse cuando pulsa en el botn Generar categoras. En algunos casos, puede
obtener mejores resultados si establece un valor alto y luego suprime cualquiera de las categoras
irrelevantes.
Nmero mnimo de descriptores y/o subcategoras por categora. Utilice esta opcin para definir

el nmero mnimo de descriptores y subcategoras que debe contener una categora para que
pueda crearse. Esta opcin ayuda a limitar la creacin de categoras que no capturen un nmero
significativo de registros.
Permitir que los descriptores aparezcan en ms de una categora. Cuando est seleccionada,

esta opcin permite el uso de descriptores en ms de una de las categoras que se generarn a
continuacin. Esta opcin suele generarse porque los elementos se clasifican de forma natural o
habitual en dos o ms categoras, y dejar que esto ocurra conlleva la creacin de categoras de
mayor calidad. Si no selecciona esta opcin, se reduce el solapamiento de registros en varias
categoras, y en funcin del tipo de datos que tenga, puede ser una situacin deseable. Sin

117
Categorizacin de los datos de texto

embargo, con la mayora de los tipos de datos, el hecho de restringir los descriptores a una sola
categora suele resultar en una prdida de calidad o de cobertura de la categora. Por ejemplo,
supongamos que tiene el concepto fabricante de asientos de automviles. Con
esta opcin, este concepto podra aparecer en una categora basada en el texto asientos
de automviles y en otra basada en fabricante. Pero si no se selecciona esta opcin,
aunque igualmente puede obtener las dos categoras, el concepto fabricante de asientos
de automviles solo aparecer como descriptor en la categora que mejor se adapte en
funcin de diversos factores, como el nmero de registros en los que aparezcan asientos de
automviles y fabricante.
Solucionar nombres de categora duplicados por. Seleccione cmo tratar las categoras o

subcategoras nuevas cuyos nombres sean iguales que los de categoras existentes. Puede fusionar
las nuevas (y sus descriptores) con las categoras existentes que tengan el mismo nombre.
Asimismo, puede omitir la creacin de categoras si se encuentra un nombre duplicado en las
categoras existentes.

Administracin de pares de excepciones de enlace


Durante el proceso de generacin de categoras y asignacin de conceptos, los algoritmos internos
agrupan las palabras en asociaciones conocidas. Para evitar que dos conceptos se emparejen
o vinculen entre s, puede activar esta funcin en el cuadro de dilogo Generar categoras
Configuracin avanzada y el cuadro de dilogo Configuracin de ndice de mapa de conceptos y
pulsar en el botn Administrar parejas.
En el cuadro de dilogo resultante Administrar excepciones de enlace, puede aadir, editar
o eliminar parejas de conceptos. Introduzca un par por cada lnea. La introduccin de pares
aqu evitar que se produzca el emparejamiento al generar o ampliar categoras y asignacin de
conceptos. Introduzca las palabras exactas que quiera, por ejemplo, una palabra con tilde no
es igual que una palabra sin tilde.
Por ejemplo, si quiere asegurarse de que perrito caliente y perrito no estn agrupadas,
puede aadir el par en una lnea separada de la tabla.
Figura 6-11
Cuadro de dilogo Administrar pares de excepciones de enlace

118
Captulo 6

Acerca de las tcnicas lingsticas


Cuando se generan o amplan categoras, puede seleccionar entre una serie de tcnicas lingsticas
avanzadas para la generacin de categoras, como por ejemplo la derivacin de raz de conceptos,
inclusin de conceptos, redes semnticas (solo en ingls) y reglas de co-ocurrencia. Estas tcnicas
pueden utilizarse solas o combinadas entre s para crear categoras.
No es necesario que sea un experto en este tipo de configuracin para poder utilizarla. Por
defecto, los valores ms comunes ya aparecen seleccionados. Puede pasar por alto los dilogos de
configuracin avanzada y empezar a generar o ampliar categoras directamente. Igualmente, si
realiza cambios aqu, no es necesario que vuelva al dilogo de configuracin cada vez, puesto
que siempre se conservan los ltimos valores.
Tenga en cuenta que, puesto que cada conjunto de datos es exclusivo, el nmero de mtodos
y el orden en el que los aplique puede cambiar con el tiempo. Puesto que los objetivos de la
minera de texto puede diferir de un conjunto de datos a otro, puede que deba experimentar
con diferentes tcnicas para comprobar con cul de ellas se obtiene el mejor resultado para los
datos de texto determinados. Ninguna de las tcnicas automticas categorizar los datos con
exactitud, por lo que se recomienda que busque y aplique una o ms tcnicas automticas que
se adapten bien a sus datos.
Las principales tcnicas lingsticas automticas para la generacin de categoras son:

Derivacin de raz de conceptos. Esta tcnica crea categoras tomando un concepto y

buscando otros conceptos que estn relacionados con el primero analizando si alguno de los
componentes de los conceptos estn morfolgicamente relacionados. Si desea obtener ms
informacin, consulte el tema Derivacin de raz de conceptos el p. 118.

Inclusin de conceptos. Esta tcnica crea categoras tomando un concepto y buscando otros

conceptos que lo incluyan. Si desea obtener ms informacin, consulte el tema Inclusin de


conceptos el p. 120.

Red semntica. Esta tcnica comienza identificando los posibles sentidos de cada concepto a

partir de un amplio ndice de relaciones de palabras, y luego crea categoras agrupando los
conceptos relacionados. Si desea obtener ms informacin, consulte el tema Redes semnticas
el p. 121. Esta opcin slo se encuentra disponible para texto en ingls.

Co-ocurrencia. Esta tcnica crea reglas de co-ocurrencia que pueden utilizarse para crear una

categora nueva, para ampliar una categora o como entrada a otra tcnica de categora. Si
desea obtener ms informacin, consulte el tema Reglas de co-ocurrencia el p. 122.

Derivacin de raz de conceptos


La tcnica de derivacin de raz de conceptos crea categoras tomando un concepto y buscando
otros conceptos que estn relacionados con el primero analizando si alguno de los componentes
de los conceptos est morfolgicamente relacionado. Un componente es una palabra. Esta
tcnica intenta agrupar conceptos observando la terminacin (el sufijo) de cada componente de
un concepto y buscando otros conceptos que puedan derivar de los primeros. La idea radica en
que cuando las palabras derivan unas de otras, probablemente tienen el mismo significado o
parecido. Para poder identificar las terminaciones, se utilizan reglas especficas de idioma. Por
ejemplo, el concepto ocasiones de progreso se agrupara con los conceptos ocasin de
progresar y ocasin de progresin.

119
Categorizacin de los datos de texto

Puede utilizar la derivacin de raz de conceptos en cualquier tipo de texto. Por s mismo
genera pocas categoras, y cada una de ellas suele contener pocos conceptos. Los conceptos de
cada categora son sinnimos o estn relacionados por posicin. Puede resultarle til emplear este
algoritmo aunque est generando categoras manualmente; los sinnimos que encuentre pueden
ser sinnimos de los conceptos en los que est particularmente interesado.
Nota: Puede evitar que los conceptos se agrupen entre s especificndolos explcitamente. Si
desea obtener ms informacin, consulte el tema Administracin de pares de excepciones de
enlace el p. 117.
Estructuracin en componentes y desarticulacin

Cuando se aplican las tcnicas de derivacin de raz o inclusin de conceptos, en primer lugar
los trminos se desglosan en componentes (palabras) y luego los componentes se desarticulan.
Cuando se aplica una tcnica, los conceptos y sus trminos asociados se cargan y se dividen en
componentes basndose en separadores, como espacios, guiones y apstrofes. Por ejemplo, el
trmino jefe administrador se divide en los componentes {administrador, jefe}.
Sin embargo, es posible que algunas partes del trmino original no se utilicen, las cuales se
consideran palabras vacas. En ingls y en otros idiomas, algunos de estos componentes ignorables
pueden incluir palabras como a, y, en, por, para, desde, un, de, sin, o, el, hasta y con.
Por ejemplo, el trmino examen de los datos tiene el conjunto de componentes
{datos, examen}, y los trminos de y los se consideran ignorables. Adems, el orden de
los componentes no se refleja en un conjunto de componentes. De esta forma, los tres trminos
siguientes podran ser equivalentes: un coche seguro para viajar, viajar en un
coche seguro y seguro para viajar en coche puesto que todos ellos tienen el mismo
conjunto de componentes {coche, seguro, viajar}. Cada vez que una pareja de trminos se
identifica como equivalente, los conceptos correspondientes se fusionan para formar un concepto
nuevo que haga referencia a todos los trminos.
Adems, puesto que los componentes de un trmino pueden estar declinados, internamente se
aplican reglas especficas del idioma para identificar los trminos equivalentes independientemente
de la variacin de la declinacin, por ejemplo, las formas plurales. De esta forma, los trminos
nivel de soporte y soporte de niveles pueden identificarse como equivalentes porque
la forma singular que se deriva sera nivel.
Funcionamiento de la derivacin de raz de conceptos

Cuando se ha aplicado la estructuracin en componentes y la desarticulacin de los trminos


(consulte la seccin anterior), el algoritmo de derivacin de raz de conceptos analiza las
terminaciones o sufijos de los componentes con el fin de encontrar la raz del componente y
luego agrupar los conceptos con otros que tengan races iguales o similares. Las terminaciones
se identifican a partir de un conjunto de reglas de derivacin lingstica especficas del idioma
del texto. Por ejemplo, en ingls existe una regla de derivacin por la que la terminacin del
componente de un trmino con el sufijo ical puede derivar de un trmino que tenga la misma raz
y terminacin con el sufijo ic. Si se utiliza esta regla (y la desarticulacin), el algoritmo debera
agrupar los conceptos ingleses epidemiologic study y epidemiological studies.

120
Captulo 6

Puesto que los trminos ya estn estructurados en componentes y se han identificado los que son
ignorables (por ejemplo, in y of), el algoritmo de derivacin de raz de conceptos tambin debera
agrupar el concepto ingls studies in epidemiology con epidemiological studies.
Se ha elegido el conjunto de reglas de derivacin de componentes de manera que la mayora
de los conceptos agrupados mediante este algoritmo son sinnimos: los conceptos ingleses
epidemiologic studies, epidemiological studies, studies in epidemiology
son trminos equivalentes. Para aumentar la precisin, existen algunas reglas de derivacin que
permiten al algoritmo agrupar conceptos que estn relacionados por posicin. Por ejemplo, el
algoritmo puede agrupar conceptos ingleses como empire builder y empire building.

Inclusin de conceptos
La tcnica de inclusin de conceptos genera categoras tomando un concepto y, mediante los
algoritmos de series lxicas, identifica los conceptos que estn incluidos en otros conceptos. La
idea radica en que cuando las palabras de un concepto forman un subconjunto de otro concepto,
refleja una relacin semntica subyacente. La inclusin es una potente tcnica que puede utilizarse
con cualquier tipo de texto.
Esta tcnica funciona bien en combinacin con las redes semnticas, pero puede utilizarse
por separado. La inclusin de conceptos puede arrojar mejores resultados cuando los registros
contienen una gran cantidad de jerga o terminologa especfica del dominio. Esto es especialmente
cierto si ha ajustado los diccionarios de antemano para permitir la extraccin y agrupacin
apropiada de trminos especiales (con sinnimos).
Funcionamiento de la inclusin de conceptos

Antes de aplicar el algoritmo de inclusin de conceptos, los trminos se estructuran en


componentes y se desarticulan. Si desea obtener ms informacin, consulte el tema Derivacin de
raz de conceptos el p. 118. A continuacin, el algoritmo de inclusin de conceptos analiza los
conjuntos de componentes. Para cada conjunto de componentes, el algoritmo busca otro conjunto
de componentes que sea un subconjunto del primer conjunto de componentes.
Por ejemplo, si tiene el concepto desayuno continental, que tiene el conjunto de
componentes {continental, desayuno}, y tiene el concepto desayuno, que tiene el
conjunto de componentes {desayuno}, el algoritmo llegar a la conclusin de que desayuno
continental es un tipo de desayuno y los agrupar juntos.
En un ejemplo ms extenso, si tenemos el trmino seguridad en el panel Resultados
extrados y aplica este algoritmo, en dicha categora tambin se agruparn los conceptos
asiento de seguridad, seguridad adicional, cinturn de seguridad, hebilla
del cinturn de seguridad, silla infantil de seguridad y normativa de
seguridad en el automvil.
Puesto que los trminos ya se han estructurado en componentes y se han identificado los que
son ignorables (por ejemplo, de y en), el algoritmo de inclusin de conceptos reconocer que el
concepto curso avanzado de espaol incluye el concepto curso de espaol.
Nota: Puede evitar que los conceptos se agrupen entre s especificndolos explcitamente. Si
desea obtener ms informacin, consulte el tema Administracin de pares de excepciones de
enlace el p. 117.

121
Categorizacin de los datos de texto

Redes semnticas
En esta versin, la tcnica de redes semnticas solo est disponible para texto en ingls.
Esta tcnica genera categoras utilizando una red incorporada de relaciones de palabras. Por
esta razn, esta tcnica puede generar resultados muy buenos cuando los trminos son concretos y
no contienen demasiadas ambigedades. Sin embargo, no confe en que esta tcnica encuentre
muchos vnculos entre conceptos especializados y muy tcnicos. Cuando trabaje con este tipo de
conceptos, el empleo de las tcnicas de inclusin y derivacin de raz de conceptos le resultar
ms til.
Funcionamiento de la red semntica

La idea que encierra la tcnica de la red semntica es aprovechar las relaciones de las palabras
comunes para crear categoras de sinnimos o hipnimos. Un hipnimo es un concepto que
constituye una especie de concepto secundario en una relacin jerrquica, tambin conocida como
relacin ISA. Por ejemplo, si animal es un concepto, gato y canguro seran hipnimos de
animal, puesto que son especies de animales.
Adems de las relaciones de sinnimos e hipnimos, la tcnica de red semntica tambin
examina enlaces parciales y completos entre los conceptos del tipo <Ubicacin>. Por ejemplo,
la tcnica agrupara los conceptos normanda, provenza y francia en una categora, porque
Normanda y Provenza forman parte de Francia.
Las redes semnticas empiezan identificando los sentidos posibles de cada concepto de la red
semntica. Cuando los conceptos se identifican como sinnimos o hipnimos, se agrupan en
una sola categora. Por ejemplo, la tcnica creara una nica categora que contenga estos tres
conceptos: manzana comestible, manzana de postre y clase reineta, puesto que la
red semntica contiene la informacin de que: 1) manzana de postre es un sinnimo de
manzana comestible, y 2) clase reineta es un tipo de manzana comestible (significa
que es un hipnimo de manzana comestible).
Si se consideran individualmente, muchos conceptos, sobre todo los unitrminos, son
ambiguos. Por ejemplo, el concepto buffet puede significar un tipo de comida o un mueble.
Si el conjunto de conceptos incluye comida, mueble y buffet, el algoritmo se ver forzado
a elegir entre agrupar buffet con comida o con mueble. Tenga en cuenta que en algunos
casos, las opciones que elige el algoritmo pueden no ser apropiadas en el contexto de un conjunto
particular de registros.
La tcnica de la red semntica puede generar un mejor rendimiento de la inclusin de conceptos
con determinados tipos de datos. Mientras que tanto la red semntica como la inclusin de
conceptos reconoce que pastel de manzana es un tipo de pastel, solo la red semntica
reconoce que tarta tambin es un tipo de pastel.
Las redes semnticas funcionarn en conjuncin con el resto de las tcnicas. Por ejemplo,
supongamos que ha seleccionado las tcnicas de red semntica y de inclusin, y que la red
semntica ha agrupado el concepto profesor con el concepto tutor (porque un tutor es un tipo
de profesor). El algoritmo de inclusin puede agrupar el concepto tutor de doctorado con
tutor y, como resultado, los dos algoritmos colaboran para generar una categora resultante que
contiene los tres conceptos: tutor, tutor de doctorado y profesor.

122
Captulo 6

Opciones de la red semntica

Existe una serie de valores adicionales que pueden ser de inters para esta tcnica.

Cambie la Distancia mxima de bsqueda. Seleccione el alcance de bsqueda de las tcnicas


antes de generar las categoras. Cuanto ms bajo sea el valor, menos resultados obtendrsin
embargo, dichos resultados sern ms precisos y ser ms probable que pueda asociarlos
o vincularlos significativamente entre s. Cuanto ms alto sea el valor, ms resultados se
obtienen; sin embargo, estos resultados pueden ser tambin menos fiables o relevantes.
Por ejemplo, dependiendo de la distancia, el algoritmo busca desde melindro hasta bollo
dulce (su elemento de grado superior), luego pastelito (elemento de grado ms superior)
y as hacia arriba hasta pan.
Al reducir la distancia de bsqueda, esta tcnica produce categoras ms pequeas con las
que debera ser ms fcil trabajar si cree que las categoras que se estn produciendo son
demasiado grandes o agrupan demasiados elementos.

Importante: Adems, se recomienda no aplicar la opcin Acomodar la ortografa a un lmite mnimo


de caracteres raz de (definido en el cuadro de dilogo Extraer) para la agrupacin difusa cuando

se utiliza esta tcnica, puesto que algunas agrupaciones falsas pueden tener un impacto muy
negativo en los resultados.

Reglas de co-ocurrencia
Las reglas de co-ocurrencia permiten detectar y agrupar conceptos que estn estrechamente
relacionados dentro del conjunto de registros. La idea radica en que cuando en los registros
a menudo se encuentran conceptos que aparecen juntos, esa co-ocurrencia refleja una relacin
subyacente que probablemente sea valiosa para las definiciones de categoras. Esta tcnica crea
reglas de co-ocurrencia que pueden utilizarse para crear una categora nueva, para ampliar una
categora o como entrada a otra tcnica de categora. Se considera que la co-ocurrencia de dos
conceptos es muy alta si estos aparecen con frecuencia juntos en un conjunto de registros y
lo hacen raramente separados en el resto de los registros. Esta tcnica puede generar buenos
resultados con conjuntos de datos ms extensos que tengan al menos varios centenares de registros.
Por ejemplo, si muchos registros contienen las palabras manzanas y naranjas, estos
conceptos se podran agrupar en una regla de co-ocurrencia, (manzanas & naranjas). En otro
ejemplo, si los conceptos mantequilla de cacahuete, mermelada y bocadillo aparecen
ms a menudo juntos que separados, se agruparn en una regla de co-ocurrencia de conceptos,
(mantequilla de cacahuete&mermelada & bocadillo).
Importante: En versiones anteriores, las reglas de co-ocurrencia y de sinnimos se colocaban entre
corchetes. En esta versin, los corchetes ahora indican un resultado de patrn de . En su lugar,
las reglas de co-ocurrencia y de sinnimos estarn entre parntesis, por ejemplo (sistemas
de sonido|altavoces).
Funcionamiento de las reglas de co-ocurrencia

Esta tcnica explora los registros en busca de dos o ms conceptos que tiendan a aparecer juntos.
Se considera que dos o ms conceptos son co-ocurrentes cuando aparecen con frecuencia juntos
en un conjunto de registros y si raramente aparecen separados en cualquiera de los otros registros.

123
Categorizacin de los datos de texto

Cuando se encuentran conceptos co-ocurrentes, se genera una regla de categora. Estas reglas
constan de dos o ms conceptos conectados entre s mediante un operador booleano &. Estas
reglas son sentencias lgicas que clasifican automticamente a un registro en una categora
siempre que el conjunto de conceptos de la regla co-ocurran en ese registro.
Opciones de las reglas de co-ocurrencia

Si utiliza la tcnica de reglas de co-ocurrencia, puede ajustar varios de los valores de configuracin
que influyen en las reglas resultantes:

Cambie la Distancia mxima de bsqueda. Seleccione el alcance de bsqueda de las tcnicas


antes de generar las categoras. Cuanto ms bajo sea el valor, menos resultados obtendr;
sin embargo, dichos resultados sern ms precisos y ser ms probable que pueda asociarlos
o vincularlos significativamente entre s. Cuanto ms alto sea el valor, ms resultados se
obtienen; sin embargo, estos resultados pueden ser tambin menos fiables o relevantes. Al
trabajar en co-ocurrencias, el valor predeterminado de la distancia de bsqueda da como
resultado muchas co-ocurrencias, muchas de las cuales tienen un vnculo muy dbil y por lo
tanto no son interesantes. Si reduce la distancia de bsqueda, filtrar las co-ocurrencias ms
dbiles y obtendr resultados ms significativos.

Nmero mnimo de registros.Para ayudar a determinar la relevancia de las co-ocurrencias,

defina el nmero mnimo de registrosque deben contener una co-ocurrencia determinada para
que se utilice como descriptor en una categora. Con conjuntos de datos ms pequeos, cuanto
menor sea el valor de esta opcin, ms fcil ser encontrar co-ocurrencias.
Nota: Puede evitar que los conceptos se agrupen entre s especificndolos explcitamente. Si
desea obtener ms informacin, consulte el tema Administracin de pares de excepciones de
enlace el p. 117.

Configuracin avanzada de frecuencia


Puede generar categoras basndose en una tcnica de frecuencia mecnica o directa. Con esta
tcnica, puede generar una categora para cada elemento (tipo, concepto o patrn) que se haya
encontrado por encima del recuento de un registro determinado. Tambin puede generar una sola
categora para todos los elementos que se produzcan con menos frecuencia. Por recuento se
entiende el nmero de registros que contienen el concepto extrado (y cualquiera de sus sinnimos)
o el tipo o patrn en cuestin, en contraposicin al nmero total de apariciones en todo el texto.
La agrupacin de elementos que aparecen con frecuencia puede arrojar resultados interesantes,
ya que puede indicar una respuesta comn o significativa. Esta tcnica es muy til si se ejecuta
sobre los resultados de extraccin sin utilizar despus de haber aplicado otras tcnicas. Otra
aplicacin es ejecutar esta tcnica inmediatamente despus de la extraccin si no existe ninguna
otra categora, editar los resultados para suprimir las categoras que no interesen, y luego ampliar
esas categoras para que coincidan con ms registros . Si desea obtener ms informacin, consulte
el tema Ampliacin de categoras el p. 125.
En lugar de utilizar esta tcnica, puede clasificar los conceptos o los patrones de conceptos
disminuyendo el nmero de registros en el panel Resultados extrados y luego arrastrar los
principales y soltarlos en el panel Categoras para crear las categoras correspondientes.

124
Captulo 6
Figura 6-12
Cuadro de dilogo Configuracin avanzada: Cuadro de dilogo Frecuencias

Generar descriptores de categoras en. Seleccione este tipo de entrada para los descriptores. Si
desea obtener ms informacin, consulte el tema Generacin de categoras el p. 110.

Nivel de conceptos. Si selecciona esta opcin significa que se utilizarn las frecuencias de los

conceptos o de los patrones de conceptos. Se utilizarn conceptos si se han seleccionado tipos


como entrada para la generacin de categoras, y patrones de conceptos si se han seleccionado
patrones de tipo. En general, la aplicacin de esta tcnica al nivel de conceptos genera
resultados ms especficos, ya que los conceptos y los patrones de conceptos representan un
nivel inferior de medicin.

Nivel de tipos. Si selecciona esta opcin significa que se utilizarn las frecuencias de tipos

o de patrones de tipo. Se utilizarn tipos si se han seleccionado tipos como entrada para la
generacin de categoras, y patrones de tipos si se han seleccionado patrones de tipo. La
aplicacin de esta tcnica al nivel de tipo permite obtener una perspectiva rpida del amplio
rango de respuestas que se da.
Nmero mnimo de registrospara elementos que tengan su propia categora. Esta opcin permite
generar categoras a partir de elementos que aparecen con frecuencia. Esta opcin restringe el
resultado slo a las categoras que contengan un descriptor que haya aparecido como mnimo en X
registros, donde X es el valor que hay que introducir para esta opcin.
Agrupar todos los elementos restantes en una categora llamada. Esta opcin permite agrupar en

una nica categora con el nombre de su eleccin todos los conceptos o tipos que aparecen rara
vez. Por defecto, esta categora se llama Otros.
Entrada de categoras. Seleccione el grupo al que aplicar las tcnicas:

Resultados de extraccin no usados. Esta opcin permite que se generen categoras a partir

de los resultados de extraccin que no se utilizan en ninguna categora existente. De esta


manera se minimiza la tendencia que tienen los registros de hacer coincidir varias categoras y
limita el nmero de categoras que se generan.

Todos los resultados de la extraccin. Esta opcin permite generar categoras utilizando los

resultados de extraccin. Esto resulta especialmente til cuando no existen categoras, o


existen muy pocas.

125
Categorizacin de los datos de texto

Solucionar nombres de categora duplicados por. Seleccione cmo tratar las categoras nuevas
cuyos nombres sean iguales que los de categoras existentes. Puede fusionar las nuevas (y sus
descriptores) con las categoras existentes que tengan el mismo nombre. Asimismo, puede omitir
la creacin de categoras si se encuentra un nombre duplicado en las categoras existentes.

Ampliacin de categoras
La ampliacin es un proceso a travs del cual se aaden descriptores o se mejoran automticamente
para aumentar las categoras existentes. El objetivo es generar una categora mejor que capture
los registros relacionados que no se asignaron originalmente a dicha categora.
Las tcnicas automticas de agrupacin que seleccione intentarn identificar conceptos,
patrones TLA y reglas de categora relacionadas con los descriptores de categoras existentes.
Estos nuevos conceptos, patrones y reglas de categora se aadirn como nuevos descriptores, o
lo harn a los descriptores existentes. Las tcnicas de agrupacin para ampliacin incluyen la
derivacin de raz de conceptos, inclusin de conceptos, redes semnticas (solo para el idioma
ingls) y reglas de co-ocurrencia. El mtodo Ampliar categoras vacas con descriptores generados
desde el nombre de categoras genera descriptores utilizando las palabras de los nombres de
categora, por lo tanto, cuanto ms descriptivos sean los nombres de las categoras, mejores
sern los resultados.
Nota: Las tcnicas de frecuencia no estn disponibles cuando se amplan categoras.
La ampliacin es una excelente manera de mejorar interactivamente las categoras. He aqu
algunos ejemplos de cundo ampliar una categora:

Despus de arrastrar y soltar patrones de conceptos para crear categoras en el panel Categoras

Despus de crear categoras manualmente y aadir reglas de categora y descriptores simples

Despus de importar un marco de cdigos en el que las categoras tienen nombres muy
descriptivos

Despus de refinar las categoras que procedan del TAP que eligi durante la creacin del
proyecto

Puede ampliar una categora varias veces. Por ejemplo, si ha importado un archivo de categora
predefinida con nombres muy descriptivos, puede realizar la ampliacin utilizando la opcin
Ampliar categoras vacas con descriptores generados desde el nombre de categoras para obtener
un primer conjunto de descriptores, y luego volver a ampliar estas categoras. Sin embargo, en
otros casos, realizar la ampliacin en distintas ocasiones puede dar como resultado una categora
demasiado genrica si los descriptores se amplan cada vez ms. Puesto que las tcnicas de
agrupacin de generacin y de ampliacin utilizan algoritmos subyacentes similares, es improbable
que la ampliacin directa despus de generar las categoras genere resultados ms interesantes.
Sugerencias:

Si realiza una ampliacin y no desea utilizar los resultados, siempre puede deshacer la
operacin (Editar > Deshacer) inmediatamente despus de haber realizado la ampliacin.

La ampliacin puede generar dos o ms reglas de categora en una categora que coincidan
exactamente con el mismo conjunto de documentos, puesto que las reglas se generan de
manera independiente durante el proceso. Si lo desea, puede revisar las categoras y eliminar

126
Captulo 6

redundancias editando manualmente la descripcin de la categora. Si desea obtener ms


informacin, consulte el tema Edicin de descriptores de categora el p. 158.
Para ampliar categoras
E En el panel Categoras, seleccione las categoras que desea ampliar.
E En los mens elija Categoras > Ampliar categoras. A menos que haya elegido que no se le avise

nunca, aparecer un cuadro de mensaje.


E Elija si desea generar ahora o editar primero la configuracin.

Pulse en Ampliar ahora para empezar a ampliar categoras utilizando la configuracin actual.
El proceso comienza y aparece un dilogo de progreso.

Pulse en Editar para revisar y modificar la configuracin.

Despus de intentar la ampliacin, las categoras para las que se encuentren nuevos descriptores
se marcan mediante la palabra Ampliado en el panel Categoras, para que pueda identificarlas
rpidamente. El texto Ampliado permanecer hasta que ample de nuevo, edite la categora de otra
forma o lo borre mediante el men contextual.

127
Categorizacin de los datos de texto
Figura 6-13
Cuadro de dilogo Ampliar categoras

Cada una de las tcnicas disponibles al generar o ampliar categoras resulta idnea para
determinados tipos de datos y situaciones, pero a menudo conviene combinar tcnicas en el mismo
anlisis para capturar el rango completo de registros. Los conceptos y los tipos que se agruparon
en una categora seguirn estando disponibles la prxima vez que genere categoras. Esto significa
que puede ver un concepto en diversas categoras o detectar categoras redundantes.
Entrada de categoras. Seleccione qu entrada se utilizar para ampliar las categoras:

Resultados de extraccin no usados. Esta opcin permite que se generen categoras a partir

de los resultados de extraccin que no se utilizan en ninguna categora existente. De esta


manera se minimiza la tendencia que tienen los registros de hacer coincidir varias categoras y
limita el nmero de categoras que se generan.

Todos los resultados de la extraccin. Esta opcin permite generar categoras utilizando los

resultados de extraccin. Esto resulta especialmente til cuando no existen categoras, o


existen muy pocas.

128
Captulo 6

Agrupacin de tcnicas

Para obtener una breve descripcin de cada tcnica, consulte Configuracin avanzada: Lingstica
el p. 113. Estas tcnicas incluyen:

Derivacin de raz de conceptos(no disponible para el japons)

Red semntica (slo en ingls)

Inclusin de conceptos

Co-ocurrencia y subopcin Nmero mnimo de documentos.

Hay un nmero de tipos que estn permanentemente excluidos de la tcnica de redes semnticas,
porque dichos tipos no generan resultados relevantes. Incluyen <Positivo>, <Negativo>,
<IP>, otros tipos no lingsticos, etc.
Distancia mxima de bsqueda. Seleccione el alcance de bsqueda de las tcnicas antes de
generar las categoras. Cuanto ms bajo sea el valor, menos resultados obtendr; sin embargo,
dichos resultados sern ms precisos y ser ms probable que pueda asociarlos o vincularlos
significativamente entre s. Cuanto ms alto sea el valor, ms resultados se obtienen; sin
embargo, estos resultados pueden ser tambin menos fiables o relevantes. Esta opcin se aplica
globalmente en todas las tcnicas, pero sus resultados son mejores en las co-ocurrencias y en
las redes semnticas.
Evitar el emparejamiento de conceptos especficos. Seleccione esta casilla de verificacin para

detener el proceso de agrupacin o emparejamiento de dos conceptos en el resultado. Para crear o


administrar pares de conceptos, pulse en Administrar parejas. Si desea obtener ms informacin,
consulte el tema Administracin de pares de excepciones de enlace el p. 117.
Cuando sea posible: Seleccione si desea simplemente ampliar, generalizar los descriptores
mediante comodines o ambas opciones.

Ampliar y generalizar. Esta opcin ampliar las categoras seleccionadas y, a continuacin,

generalizar los descriptores. Si selecciona generalizar, el producto crear reglas de categora


genricas en categoras mediante el comodn de asterisco. Por ejemplo, en lugar de generar
varios descriptores como [naranja de mesa + .] y [naranja de zumo + .], el
uso de comodines generara [naranja * + .]. Si generaliza con comodines, obtendr a
menudo exactamente el mismo nmero de registros que antes. Sin embargo, esta opcin
tiene la ventaja de reducir el nmero y simplificar los descriptores de categora. Adems,
esta opcin aumenta la posibilidad de categorizar ms registros utilizando estas categoras en
datos de texto nuevos (por ejemplo, en estudios por fases o longitudinales).

Slo ampliar. Esta opcin ampliar sus categoras sin generalizar. Puede ser de utilidad

seleccionar primero la opcin Slo ampliar para las categoras creadas manualmente y, a
continuacin, ampliar las mismas categoras de nuevo mediante la opcin Ampliar y generalizar.

Slo generalizar. Esta opcin generalizar los descriptores sin ampliar sus categoras de

ningn otro modo.

129
Categorizacin de los datos de texto

Otras opciones para ampliar categoras

Adems de seleccionar las tcnicas que se aplicarn, puede editar cualquiera de las opciones
siguientes:
Nmero mximo de elementos por los que ampliar un descriptor. Cuando se ampla un descriptor

con elementos (conceptos, tipos y otras expresiones), define el nmero mximo de elementos que
pueden aadirse a un solo descriptor. Si establece este lmite en 10, no podr aadir ms de 10
elementos adicionales a un descriptor existente. Si hay ms de 10 elementos para aadir, las
tcnicas dejan de aadir elementos nuevos cuando se alcanza el nmero diez. Con ello se puede
reducir la lista de un descriptor, pero no se garantiza que se utilicen en primer lugar los elementos
ms interesantes. Puede resultar preferible reducir el tamao de la ampliacin sin comprometer la
calidad; para ello utilice la opcin Generalizar con comodines cuando sea posible. Esta opcin slo
se aplica a descriptores que contengan los operadores booleanos & (AND) o ! (NOT).
Ampliar tambin subcategoras. Esta opcin tambin ampliar cualquier subcategora por debajo
de las categoras seleccionadas.
Ampliar las categoras con descriptores basados en el nombre de las categoras.Esta opcin

intenta generar descriptores automticamente para cada categora basndose en las palabras que
conforman el nombre de la categora. El nombre de la categora se explora para comprobar si
las palabras que conforman el nombre coinciden con alguno de los conceptos extrados. Si se
reconoce un concepto, se utilizar para buscar patrones de conceptos coincidentes, y ambos se
utilizarn para generar descriptores para la categora. Esta opcin genera los mejores resultados
cuando los nombres de categora son largos y descriptivos. Se trata de un mtodo rpido para
generar descriptores de categoras, que a su vez permiten a la categora capturar registros que
contienen dichos descriptores. Esta opcin es muy til cuando se importan categoras desde otro
punto o cuando crea categoras manualmente con nombres descriptivos largos. Este mtodo solo
se aplica a categoras vacas, que tienen 0 descriptores. Si una categora ya contiene descriptores,
no se ampliar de esta forma.
Generar descriptores como. Esta opcin slo se aplica si la opcin anterior est seleccionada.

Conceptos. Seleccione esta opcin para producir los descriptores resultantes en forma de

conceptos, independientemente de si se han extrado del texto de origen.

Patrones. Seleccione esta opcin para producir los descriptores resultantes en forma de

patrones, independientemente de si se han extrado los patrones resultantes o cualquier patrn.

Creacin manual de categoras


Adems de crear categoras utilizando las tcnicas de generacin automtica de categoras,
el Administrador de marcos de cdigo y el editor de reglas, tambin puede crear categoras
manualmente. Existen los mtodos manuales siguientes:

Crear una categora vaca en la que se aadirn elementos uno a uno. Si desea obtener
ms informacin, consulte el tema Creacin de categoras nuevas o cambio de nombre de
categoras el p. 130.

Arrastrar trminos, tipos y patrones al panel de categoras. Si desea obtener ms informacin,


consulte el tema Creacin de categoras mediante el mtodo de arrastrar y soltar el p. 131.

130
Captulo 6

Creacin de categoras nuevas o cambio de nombre de categoras


Puede crear categoras vacas en las que aadir conceptos y tipos. Tambin puede cambiar el
nombre de las categoras.
Figura 6-14
Dilogo Propiedades de categora

Para crear una categora vaca nueva


E Vaya al panel Categoras.
E En los mens elija Categoras > Crear categora vaca. Se abrir el cuadro de dilogo.
E Escriba un nombre para esta categora en el campo Nombre.
E Pulse en Aceptar para aceptar el nombre y cerrar el cuadro de dilogo. El cuadro de dilogo se

cierra y el nombre de la nueva categora aparece en el panel.


Ahora ya puede empezar a aadir elementos a esta categora. Si desea obtener ms informacin,
consulte el tema Aadir descriptores a las categoras el p. 157.
Para cambiar el nombre de una categora
E Seleccione una categora y elija Categoras > Cambiar nombre de categora. Se abrir el cuadro

de dilogo.
E Escriba un nuevo nombre para esta categora en el campo Nombre.
E Pulse en Aceptar para aceptar el nombre y cerrar el cuadro de dilogo. El cuadro de dilogo se

cierra y el nombre de la nueva categora aparece en el panel.

131
Categorizacin de los datos de texto

Creacin de categoras mediante el mtodo de arrastrar y soltar


La tcnica de arrastrar y soltar es manual y no se basa en algoritmos. Puede crear categoras en el
panel Categoras arrastrando a ste los elementos siguientes:

Conceptos, tipos o patrones extrados desde el panel Resultados extrados al panel Categoras.

Conceptos extrados desde el panel Datos del panel Categoras.

Filas completas desde el panel Datos del panel Categoras. De esta forma se crear una
categora formada por todos los conceptos y patrones extrados contenidos en dicha fila.

Nota: El panel Resultados extrados da soporte a la seleccin mltiple para facilitar la funcin de
arrastrar y soltar mltiples elementos.
Importante: No pueden arrastrarse y soltarse conceptos desde el panel Datos que no se hayan

extrado del texto. Si desea forzar la extraccin de un concepto que ha encontrado en los
datos, debe aadir este concepto a un tipo. Luego vuelva a ejecutar la extraccin. Los nuevos
resultados de la extraccin contendrn el concepto que acaba de aadir. Luego puede utilizarlo
en la categora. Si desea obtener ms informacin, consulte el tema Adicin de conceptos a
tipos en el captulo 5 el p. 89.
Para crear categoras utilizando la funcin de arrastrar y soltar:
E En el panel Resultados extrados o en el panel Datos, seleccione uno o ms conceptos, patrones,

tipos, registros o registros parciales.


E Mientras mantiene pulsado el botn del ratn, arrastre el elemento hasta una categora existente o

a un rea del panel para crear una categora nueva.


E Cuando haya alcanzado el rea donde desea soltar el elemento, suelte el botn del ratn. El

elemento se aade al panel Categoras. Las categoras que se han modificado aparecen con un
color de fondo especial. Este color se llama fondo de comentario de categora. Si desea obtener
ms informacin, consulte el tema Opciones de configuracin en el captulo 2 el p. 17.
Nota: A la categora resultante se le asigna un nombre automticamente. Si desea cambiar el
nombre, puede hacerlo. Si desea obtener ms informacin, consulte el tema Edicin de las
propiedades de las categoras el p. 156.
Si desea ver qu registros estn asignados a una categora, seleccione la categora en el panel
Categoras. El panel de datos se actualiza automticamente y muestra todos los registros de dicha
categora. Para ver el conjunto completo de respuestas de una pregunta, seleccione el nodo Todos
los registros en la parte superior del rbol de categoras.

Importacin y exportacin de categoras predefinidas


Si tiene sus propias categoras almacenadas en un archivo Microsoft Excel (*.xls, *.xlsx), puede
importarlas a IBM SPSS Text Analytics for Surveys.
Tambin puede exportar las categoras que tenga en un proyecto a un archivo Microsoft
Excel (*.xls, *.xlsx). Al exportar sus categoras, puede decidir incluir o excluir informacin
adicional como descriptores y puntuaciones. Si desea obtener ms informacin, consulte el tema
Exportacin de categoras el p. 142.

132
Captulo 6

Importante: En SPSS Text Analytics for Surveys versin 4.0.1, las categoras predefinidas han
sustituido en gran medida el uso de marcos de cdigo. Por ejemplo, el Asistente para Importar
marcos de cdigo ha sido sustituido por el Asistente de importacin de categoras predefinidas.
Sin embargo, este nuevo asistente sigue permitindole importar los marcos de cdigo existentes
que tenga. Adems, el Administrador de marcos de cdigo ya no es compatible; para editar
valores de cdigo, seleccione Mostrar > Cdigos de categora en los mens para mostrar la columna
Cdigo en el panel Categoras y edite los cdigos segn sea necesario.
Si sus categoras predefinidas no tienen cdigos o desea nuevos cdigos, puede generar
automticamente un nuevo conjunto de cdigos para el conjunto de categoras en el panel
Categoras seleccionando Categoras > Administrar categoras > Generar cdigos automticamente en
los mens. Esto eliminar los cdigos existentes y volver a numerarlos a todos automticamente.

Importacin de categoras predefinidas


Puede importar sus categoras predefinidas a IBM SPSS Text Analytics for Surveys. Antes de
la importacin, asegrese de que el archivo de categora predefinida se encuentre en un archivo
Microsoft Excel (*.xls, *.xlsx) y est estructurado en uno de los formatos compatibles. Tambin
puede hacer que el producto detecte automticamente el formato en su lugar. Los siguientes
formatos son compatibles:

Formato de lista plana: Si desea obtener ms informacin, consulte el tema Formato de lista

plana el p. 137.

Formato compacto: Si desea obtener ms informacin, consulte el tema Formato compacto

el p. 138.

Formato con sangrado: Si desea obtener ms informacin, consulte el tema Formato con

sangrado el p. 140.
Para importar categoras predefinidas
E En los mens, seleccione Categoras > Administrar categoras > Importar categoras predefinidas.

Aparecer un asistente de importacin de categoras predefinidas.

133
Categorizacin de los datos de texto
Figura 6-15
Asistente de importacin de categoras predefinidas

E En la lista desplegable Buscar en, seleccione la unidad y la carpeta donde se encuentra el archivo.
E Seleccione el archivo de la lista. El nombre del archivo aparece en el cuadro de texto Nombre

de archivo.
E Seleccione la hoja de clculo que contenga las categoras predefinidas de la lista. El nombre de la

hoja de clculo aparece en el campo Hoja de clculo.


E Pulse en Siguiente para empezar a elegir el formato de los datos.

134
Captulo 6
Figura 6-16
Cuadro de dilogo Importar categoras predefinidas, paso Seleccionar formato de datos

E Seleccione el formato de su archivo o la opcin para permitir que el producto intente detectar

el formato automticamente. La deteccin automtica funciona mejor con los formatos ms


comunes.

Formato de lista plana: Si desea obtener ms informacin, consulte el tema Formato de lista

plana el p. 137.

Formato compacto: Si desea obtener ms informacin, consulte el tema Formato compacto

el p. 138.

Formato con sangrado: Si desea obtener ms informacin, consulte el tema Formato con

sangrado el p. 140.
E Pulse en Siguiente para definir las opciones de importacin adicionales. Si decide que se detecte el

formato automticamente, se le llevar al paso final.

135
Categorizacin de los datos de texto
Figura 6-17
Importar categoras predefinidas, paso Opciones de importacin

E Si una o ms filas contienen cabeceras de columna u otra informacin externa, seleccione el


nmero de fila desde el que desee comenzar la importacin en la opcin Comenzar importacin en
la fila. Por ejemplo, si sus nombres de categora empiezan en la fila 7, debe introducir el nmero 7

en esta opcin para que el archivo se importe correctamente.


E Si su archivo contiene cdigos de categoras, seleccione la opcin Contiene cdigos de categoras.

De este modo ayuda a que el asistente reconozca sus datos correctamente.


E Revise las casillas codificadas por colores y la leyenda para asegurarse de que los datos se han

identificado correctamente. Los errores detectados en el archivo se muestran de color rojo y


se hace referencia a ellos debajo de la tabla de presentacin preliminar del formato. Si se ha
seleccionado un formato incorrecto, retroceda y seleccione otro formato. Si necesita realizar
correcciones en su archivo, haga dichos cambios y reinicie el asistente volviendo a seleccionar el
archivo. Debe corregir todos los errores antes de poder finalizar el asistente.
E Pulse en Siguiente para revisar el conjunto de categoras y subcategoras que se importarn y

definir el modo de crear descriptores para estas categoras.

136
Captulo 6
Figura 6-18
Cuadro de dilogo Importar categoras predefinidas, paso Presentacin preliminar

E Revise el conjunto de categoras que se importar a la tabla. Si no ve las palabras clave que

esperaba ver como descriptores, puede que no se hayan reconocido durante la importacin.
Asegrese de que tienen los prefijos adecuados y de que aparecen en la casilla correcta.
E Elija de qu forma desea manejar las categoras preexistentes en el proyecto.

Sustituir todas las categoras existentes. Esta opcin depura todas las categoras existentes y, a

continuacin, las categoras recin importadas se utilizan en solitario en su lugar.

Agregar a las categoras existentes. Esta opcin importar las categoras y fusionar las

categoras comunes con las categoras existentes. Cuando est aadiendo categoras a
categoras existentes, debe determinar cmo desea tratar los duplicados. Una opcin (opcin:
Fusionar) es fusionar las categoras que se estn importando con las categoras existentes si
comparten el nombre de categora. Otra opcin (opcin: Excluir de la importacin) es prohibir
la importacin de categoras si existe una con el mismo nombre.
E Importar palabras clave como descriptores es una opcin para importar las palabras clave

identificadas en sus datos como descriptores para la categora asociada.


E Ampliar categoras mediante la derivacin de descriptores es una opcin que generar descriptores a

partir de las palabras que representan el nombre de la categora o subcategora y/o las palabras
que componen la anotacin. Si las palabras coinciden con resultados extrados, entonces se
aaden como descriptores a la categora. Esta opcin genera los mejores resultados cuando los
nombres de categora o anotaciones son largos y descriptivos. Se trata de un mtodo rpido

137
Categorizacin de los datos de texto

para generar los descriptores de categoras que permiten que la categora capture registros que
contengan dichos descriptores.

El campo De le permite seleccionar de qu texto se derivarn los descriptores, los nombres o


categoras y subcategoras, las palabras de las anotaciones, o ambas.

El campo Como le permite crear estos descriptores en forma de conceptos o patrones TLA.
Si la extraccin de TLA no ha tenido lugar, las opciones de patrones estn desactivadas en
este asistente.

E Pulse en Finalizar para importar las categoras predefinidas en el panel Categoras.

Formato de lista plana


En este formato de lista plana, slo hay un nivel superior de categoras sin ninguna jerarqua, lo
que significa que no hay subcategoras ni subredes. Los nombres de categoras estn en una
nica columna.
Figura 6-19
Ejemplo de formato de lista plana

La siguiente informacin puede incluirse en un archivo con este formato:

La columna opcional cdigos contiene valores numricos que identifican de manera exclusiva
cada categora. Si especifica que el archivo de datos contiene cdigos (opcin Contiene
cdigos de categoras en el paso Configuracin de contenido), entonces debe existir una
columna que contenga cdigos nicos para cada categora en la casilla justo a la izquierda
del nombre de categora. Si sus datos no contienen cdigos, pero desea crear cdigos
posteriormente, siempre podr hacerlo (Categoras > Administrar categoras > Generar cdigos
automticamente). Puede editar los cdigos ms adelante seleccionando Mostrar > Cdigo
de categora; los cdigos se muestran en la columna Cdigo en el panel Categoras donde
puede modificarlos manualmente.

138
Captulo 6

Una columna necesaria de nombres de categora contiene todos los nombres de las categoras.
Esta columna es obligatoria para importar mediante este formato.

Anotaciones opcionales en la casilla justo a la derecha del nombre de categora. Esta anotacin

consiste en texto que describe sus categoras/subcategoras.

Se pueden importar palabras clave opcionales como descriptores para categoras. Para que
se las reconozca, estas palabras clave deben existir en la casilla justo debajo del nombre de
categora/subcategora asociada y la lista de palabras clave debe tener un guin bajo (_)
como prefijo, como en _armamento, armas / pistolas. La casilla de palabras clave
puede contener una o ms palabras utilizadas para describir cada categora. Estas palabras se
importarn como descriptores o se ignorarn dependiendo de lo que especifique en el ltimo
paso del asistente. Posteriormente, los descriptores se comparan con los resultados extrados
del texto. Si se encuentra una coincidencia, entonces ese registro o documento se punta
en la categora que contiene este descriptor.

Tabla 6-3
Formato de lista plana con cdigos, palabras clave y anotaciones

Columna A
Cdigo de categora
(opcional)

Columna B
Nombre de categora

Columna C
Anotacin

Lista _descriptor/palabra clave


(opcional)

Formato compacto
El formato compacto se estructura de forma parecida al formato de lista plana excepto en que el
formato compacto se utiliza con categoras jerrquicas. Por lo tanto, se necesita una columna de
nivel de cdigo para definir el nivel jerrquico de cada categora y subcategora.

139
Categorizacin de los datos de texto
Figura 6-20
Ejemplo de un archivo de categora predefinida compacto en Microsoft Excel

La siguiente informacin puede incluirse en un archivo con este formato:

La columna necesarianivel de cdigo contiene nmeros que indican la posicin jerrquica de la


informacin siguiente de dicha lnea. Por ejemplo, si se especifican los valores 1, 2 3 y tiene
tanto categoras como subcategoras, entonces 1 es para categoras, 2 para subcategoras y 3
para sub-subcategoras. Si slo tiene categoras y subcategoras, entonces 1 es para categoras
y 2 para subcategoras. As sucesivamente, hasta la profundidad de categora deseada.

La columna opcional cdigos contiene valores que identifican de manera exclusiva cada
categora. Si especifica que el archivo de datos contiene cdigos (opcin Contiene
cdigos de categoras en el paso Configuracin de contenido), entonces debe existir una
columna que contenga cdigos nicos para cada categora en la casilla justo a la izquierda
del nombre de categora. Si sus datos no contienen cdigos, pero desea crear cdigos
posteriormente, siempre podr hacerlo (Categoras > Administrar categoras > Generar cdigos
automticamente). Puede editar los cdigos ms adelante seleccionando Mostrar > Cdigo
de categora; los cdigos se muestran en la columna Cdigo en el panel Categoras donde
puede modificarlos manualmente.

Una columna necesaria de nombres de categora contiene todos los nombres de las categoras
y subcategoras. Esta columna es obligatoria para importar mediante este formato.

Anotaciones opcionales en la casilla justo a la derecha del nombre de categora. Esta anotacin

consiste en texto que describe sus categoras/subcategoras.

Se pueden importar palabras clave opcionales como descriptores para categoras. Para que
se las reconozca, estas palabras clave deben existir en la casilla justo debajo del nombre de
categora/subcategora asociada y la lista de palabras clave debe tener un guin bajo (_)
como prefijo, como en _armamento, armas / pistolas. La casilla de palabras clave
puede contener una o ms palabras utilizadas para describir cada categora. Estas palabras se

140
Captulo 6

importarn como descriptores o se ignorarn dependiendo de lo que especifique en el ltimo


paso del asistente. Posteriormente, los descriptores se comparan con los resultados extrados
del texto. Si se encuentra una coincidencia, entonces ese registro o documento se punta
en la categora que contiene este descriptor.
Tabla 6-4
Ejemplo de formato compacto con cdigos

Columna A
Nivel de cdigo jerrquico
Nivel de cdigo jerrquico

Columna B
Columna C
Cdigo de categora (opcional)
Nombre de categora
Cdigo de subcategora (opcional) Nombre de subcategora

Tabla 6-5
Ejemplo de formato compacto sin cdigos

Columna A
Nivel de cdigo jerrquico
Nivel de cdigo jerrquico

Columna B
Nombre de categora
Nombre de subcategora

Formato con sangrado


En el formato de archivo con sangrado, el contenido es jerrquico, lo que significa que contiene
categoras y uno o ms niveles de subcategoras. Adems, su estructura tiene sangrado para
indicar esta jerarqua. Cada fila del archivo contiene una categora o una subcategora, pero las
subcategoras tienen un sangrado con respecto a las categoras, las sub-subcategoras tienen un
sangrado con respecto a las subcategoras y as sucesivamente. Puede crear manualmente esta
estructura en Microsoft Excel o utilizar una que se haya exportado desde otro producto y se
haya guardado en un formato Microsoft Excel.
Figura 6-21
Ejemplo de categoras con sangrado en Microsoft Excel

141
Categorizacin de los datos de texto

Los cdigos de categora de nivel superior y nombres de categora ocupan las columnas A y

B, respectivamente. No obstante, si no hay ningn cdigo, el nombre de categora est en


la columna A.

Los cdigos de subcategora y los nombres de subcategora ocupan las columnas B y C,

respectivamente. No obstante, si no hay ningn cdigo, el nombre de subcategora est en la


columna B. La subcategora es miembro de una categora. No puede tener subcategoras si no
tiene categoras de nivel superior.
Tabla 6-6
Estructura sangrada con cdigos

Columna A
Cdigo de categora
(opcional)

Columna B
Nombre de categora

Columna C

Cdigo de subcategora
(opcional)

Nombre de subcategora
Cdigo de
sub-subcategora
(opcional)

Columna D

Nombre de
sub-subcategora

Tabla 6-7
Estructura sangrada sin cdigos

Columna A
Nombre de categora

Columna B

Columna C

Nombre de subcategora
Nombre de sub-subcategora

La siguiente informacin puede incluirse en un archivo con este formato:

Los cdigos opcionales deben ser valores que identifiquen de manera exclusiva cada categora
o subcategora. Si especifica que el archivo de datos contiene cdigos (opcin Contiene
cdigos de categoras en el paso Configuracin de contenido), entonces debe existir un cdigo
nico para cada categora o subcategora en la casilla justo a la izquierda del nombre
de categora/subcategora. Si sus datos no contienen cdigos, pero desea crear cdigos
posteriormente, siempre podr hacerlo (Categoras > Administrar categoras > Generar cdigos
automticamente). Puede editar los cdigos ms adelante seleccionando Mostrar > Cdigo
de categora; los cdigos se muestran en la columna Cdigo en el panel Categoras donde
puede modificarlos manualmente.

Un nombreobligatorio para cada categora y subcategora. Las subcategoras deben tener un


sangrado con respecto a las categoras de una casilla a la derecha en una fila separada.

Anotaciones opcionales en la casilla justo a la derecha del nombre de categora. Esta anotacin

consiste en texto que describe sus categoras/subcategoras.

Se pueden importar palabras clave opcionales como descriptores para categoras. Para que
se las reconozca, estas palabras clave deben existir en la casilla justo debajo del nombre de
categora/subcategora asociada y la lista de palabras clave debe tener un guin bajo (_)
como prefijo, como en _armamento, armas / pistolas. La casilla de palabras clave
puede contener una o ms palabras utilizadas para describir cada categora. Estas palabras se
importarn como descriptores o se ignorarn dependiendo de lo que especifique en el ltimo
paso del asistente. Posteriormente, los descriptores se comparan con los resultados extrados

142
Captulo 6

del texto. Si se encuentra una coincidencia, entonces ese registro o documento se punta
en la categora que contiene este descriptor.
Importante: Si utiliza un cdigo a un nivel, debe incluir un cdigo para cada categora y

subcategora. De lo contrario, el proceso de importacin fallar.

Exportacin de categoras
Tambin puede exportar las categoras que tenga en un proyecto a un archivo Microsoft Excel
(*.xls, *.xlsx). Los datos que se exportarn provienen en gran medida del contenido actual del
panel Categoras o de las propiedades de categora. Por lo tanto, le recomendamos que vuelva
a obtener la puntuacin si tiene la intencin de exportar tambin el valor de puntuacin de
Documentos.
Siempre se exporta...
Cdigos de categoras, si los hay
Nombres de categora (y subcategora)
Niveles de cdigo, si los hay (formato plano/compacto)
Cabeceras de columna (formato plano/compacto)

Se exporta opcionalmente...
Puntuaciones de Documentos
Anotaciones de categora
Nombres de descriptor
Recuentos de descriptores

Importante: Cuando exporta descriptores, se convierten en cadenas de texto y se les aade un


guin bajo como prefijo. Si vuelve a realizar una importacin en este producto, se perder la
capacidad de distinguir entre descriptores que sean patrones, los que sean reglas de categora y
los que sean conceptos planos. Si tiene la intencin de volver a utilizar estas categoras en este
producto, recomendamos encarecidamente que cree un archivo de paquete de anlisis de texto
(TAP) en su lugar, ya que el formato TAP conservar todos los descriptores del modo en que
estn definidos actualmente, as como todas sus categoras, cdigos y los recursos lingsticos
utilizados. Los archivos TAP pueden utilizarse tanto en IBM SPSS Text Analytics como en
IBM SPSS Text Analytics for Surveys. Si desea obtener ms informacin, consulte el tema
Uso de los paquetes de anlisis de texto en el captulo 3 el p. 41.
Para exportar categoras predefinidas
E En los mens, seleccione Categoras > Administrar categoras > Exportar categoras. Aparecer un

asistente de exportacin de categoras.

143
Categorizacin de los datos de texto
Figura 6-22
Asistente de exportacin de categoras, paso 1

E Seleccione la ubicacin e introduzca el nombre del archivo que se exportar.


E Introduzca un nombre para el archivo de salida en el cuadro de texto Nombre de archivo.
E Pulse en Siguiente para seleccionar el formato al que exportar sus datos de categora.

144
Captulo 6
Figura 6-23
Asistente de exportacin de categoras, paso 2

E Seleccione el formato entre las siguientes alternativas:

Formato de lista plana o compacta: Si desea obtener ms informacin, consulte el tema Formato

de lista plana el p. 137. La lista plana no contiene ninguna subcategora. Si desea obtener
ms informacin, consulte el tema Formato compacto el p. 138. El formato de lista compacta
contiene categoras jerrquicas.

Formato con sangrado: Si desea obtener ms informacin, consulte el tema Formato con

sangrado el p. 140.
E Pulse en Siguiente para empezar a seleccionar el contenido que se exportar y revisar los datos

propuestos.

145
Categorizacin de los datos de texto
Figura 6-24
Asistente de exportacin de categoras, paso 3

E Revise el contenido del archivo exportado.


E Seleccione o elimine la seleccin de la configuracin de contenido adicional que se exportar
como Anotaciones o Nombres de descriptor.
E Pulse en Finalizar para exportar las categoras.

Uso de reglas de categora


Puede crear categoras de muchas formas. Una de estas formas es definir reglas de categora
para expresar ideas. Las reglas de categora son sentencias que clasifican automticamente
registros en una categora que se basa en una expresin lgica utilizando los conceptos, tipos y
patrones extrados, as como operadores booleanos. Por ejemplo, puede escribir una expresin
que signifique incluir todos los registros que contienen el concepto extrado embajada pero
no argentina en esta categora.
Aunque algunas reglas de categora se generan de forma automtica cuando se crean categoras
utilizando tcnicas de agrupacin como co-ocurrencia y derivacin de concepto de raz
(Categoras > Configuracin de generacin > Configuracin avanzada: Lingstica), tambin puede
crear reglas de categora manualmente en el editor de reglas utilizando sus conocimientos sobre

146
Captulo 6

categoras en los datos y en el contexto. Cada regla se adjunta a una nica categora, de manera
que cada registro que coincida con la regla se registre en dicha categora.
Las reglas de categora ayudan a mejorar la calidad y la productividad de los resultados de
la minera de datos de texto y del anlisis cuantitativo al permitirle categorizar las respuestas
con mayor grado de especificidad. Tanto su experiencia como los conocimientos empresariales
pueden proporcionarle mayor profundizacin en los datos y en el contexto. Puede aprovechar
esta profundizacin para trasladar los conocimientos a reglas de categora y categorizar as los
los registros con mayor eficacia y precisin, ya que podr combinar los elementos extrados
con la lgica booleana.
La capacidad de crear estas reglas mejora la precisin de la codificacin, la eficacia y la
productividad, ya que le permite desglosar en capas sus conocimientos empresariales en la
tecnologa de extraccin del producto.
Nota: Entre los ejemplos de cmo coincide la regla con el texto, vase Ejemplos de reglas
de categora el p. 151

Sintaxis de regla de categora


Aunque algunas reglas de categora se generan de forma automtica cuando se crean categoras
utilizando tcnicas de agrupacin como co-ocurrencia y derivacin de concepto de raz (Categoras
> Configuracin de generacin > Configuracin avanzada: lingstico), tambin pueden crearse reglas
de categora manualmente en el editor de reglas. Cada regla se adjunta a una nica categora, de
manera que cada registro que coincida con la regla es anotado automticamente en dicha categora.
Nota: Entre los ejemplos de cmo coincide la regla con el texto, vase Ejemplos de reglas
de categora el p. 151
Cuando cree o edite una regla, deber tenerla abierta en un editor de reglas. Puede aadir
conceptos, tipos o patrones y utilizar comodines para ampliar las coincidencias. Cuando se
utilizan conceptos, tipos y patrones extrados, puede beneficiarse de encontrar todos los conceptos
relacionados.
Importante: para evitar errores comunes, se recomienda arrastrar los conceptos directamente desde

el panel Resultados extrados, desde el panel de anlisis de enlace de texto o desde el panel
Datos y soltarlos en el editor de reglas o aadirlos mediante los mens contextuales siempre
que sea posible.
Cuando se reconocen los conceptos, tipos y patrones, aparece un icono junto al texto.
Concepto extrado

Tipo extrado

Patrn extrado

Sintaxis y operadores de reglas

En la tabla siguiente encontrar los caracteres con los que puede definir la sintaxis de las reglas.
Utilice estos caracteres junto con los conceptos, tipos y patrones para crear la regla.

147
Categorizacin de los datos de texto
Tabla 6-8
Sintaxis soportada

Carcter
&

!()

Descripcin
El booleano and. Por ejemplo, a & b contiene tanto a como b como:
- invasin & estados unidos
- 2016 & olimpiadas
- bueno & manzana
El booleano or es inclusivo, lo que significa que si se encuentran algunos o todos los
elementos, existe coincidencia. Por ejemplo, a | b contiene tanto a como b como:
- ataque | francia
- condominio | apartamento
El booleano not. Por ejemplo, !(a) no contiene a. como,
!(buen & hotel)

()
+

[]

Comodn que representa cualquier cosa, desde un solo carcter a una palabra completa
dependiendo de cmo se utilice. Si desea obtener ms informacin, consulte el tema Uso de
comodines en reglas de categora el p. 150.
Un delimitador de expresin. Las expresiones que estn entre parntesis se evalan en
primer lugar.
Conector de patrones que se utiliza para formar un patrn especfico de orden. Cuando est
presente, deben utilizarse corchetes. Si desea obtener ms informacin, consulte el tema
Uso de patrones TLA en las reglas de categora el p. 148.
Se requiere el delimitador de patrn si est buscando coincidir basndose en un patrn TLA
extrado de una regla de categora. El contenido de los corchetes representa los patrones
TLA y no coincidir nunca con los conceptos o tipos basados en una simple co-ocurrencia.
Si no ha extrado este patrn TLA, ninguna coincidencia ser posible. Si desea obtener ms
informacin, consulte el tema Uso de patrones TLA en las reglas de categora el p. 148. No
utilice corchetes si est buscando coincidir conceptos y tipos en lugar de patrones.
Nota: En versiones anteriores, las reglas de co-ocurrencia y de sinnimos generadas por las
tcnicas de generacin de categoras solan estar entre corchetes. En todas las versiones
nuevas, los corchetes ahora indican la presencia de un patrn TLA. En su lugar, las reglas
generadas por la tcnica de co-ocurrencia y de sinnimos estarn entre parntesis, por
ejemplo (sistemas de sonido | altavoces).

El & y | operadores son conmutativos como a & b = b & a y a | b = b | a.


Salto de caracteres con la barra invertida

Si tiene un concepto que contiene cualquier carcter que sea tambin un carcter de sintaxis,
deber colocar una barra inclinada invertida delante de dicho carcter para que la regla se
interprete correctamente. El carcter de barra inclinada invertida se utiliza para caracteres de
escape que pueden tener un significado especial. Cuando realiza la accin de arrastrar y soltar en
el editor, las barras inclinadas invertidas se colocan automticamente.
Los caracteres de sintaxis de reglas deben ir precedidos por una barra inclinada invertida si quiere
que se consideren como tal en vez de como sintaxis de regla:
&!|+<>()[]*

Por ejemplo, puesto que el concepto r&d contiene el operador and (&), deber incluir la barra
inclinada invertida cuando la escriba en el editor de reglas, as: r\&d.

148
Captulo 6

Uso de patrones TLA en las reglas de categora


Los patrones de anlisis de enlaces de texto se pueden especificar explcitamente en reglas de
categora para permitirle obtener resultados an ms especficos y contextuales. Cuando define un
patrn en una regla de categora, est omitiendo los resultados ms sencillos de la extraccin de
conceptos, y slo compara los documentos y registros basados en los resultados de patrones de
anlisis de enlaces de texto extrados.
Delimitacin con corchetes. Un patrn TLA debe colocarse entre corchetes [ ] si lo est

utilizando dentro de una regla de categora. Se requiere el delimitador de patrn si est buscando
coincidir basndose en un patrn TLA extrado. Puesto que las reglas de categora pueden
contener tipos, conceptos o patrones; los corchetes sirven para aclarar a la regla que su contenido
representa el patrn TLA extrado. Si no ha extrado este patrn TLA, ninguna coincidencia
ser posible. Si ve un patrn sin corchetes como pastel + bueno en el panel de Categoras,
probablemente signifique que el patrn fue aadido directamente a la categora fuera del editor
de reglas de categora. Por ejemplo, si aade un patrn de concepto directamente a la categora
desde panel de resultados extrados, no aparecer con corchetes. Sin embargo, cuando se utiliza
un patrn en una regla de categora, deber incluir el patrn entre corchetes dentro de la regla de
categora como [pltano + !(bueno)].
Uso del signo + en patrones. En IBM SPSS Text Analytics for Surveys, puede tener patrones de
dos partes. Cuando desee indicar que el orden es importante, utilice el signo + para conectar los
elementos. Si el orden no es importante, puede utilizar el booleano &. En los dos textos siguientes,

la posicin de la palabra mejor es importante: el brquil es mejor y es mejor que el brquil.


Por ejemplo, supongamos que tiene estas dos expresiones en los textos de muestra siguientes:
Me gusta la pia y Detesto la pia. Sin embargo, me gustan las fresas. La expresin gusta
& pia puede hacer coincidir ambos textos ya que se trata de una expresin de conceptos, no una
regla de enlace de texto (no est entre corchetes). La expresin pia+ gusta slo coincide con
Me gusta la pia ya que en el segundo texto, la palabra gusta est asociada a fresas en su lugar.
Agrupacin con patrones. Puede simplificar las reglas con sus propios patrones. Supongamos que
desea capturar las tres expresiones siguientes, pimienta de cayena + gusta, pimienta
de chile + gusta, y pimientas + gusta. Puede agruparlos en una sola regla de categora,
como [* pimientas & gusta]. Si tiene otra expresin pimientas picantes + buenas,
puede agrupar las cuatro en una regla como [* pimientas + <Positivo>].
Orden de patrones. Para ordenar mejor los resultados, las reglas de anlisis de enlace de texto

proporcionadas en las plantillas que ha instalado con su producto intentan sacar patrones bsicos
en el mismo orden independientemente del orden de las palabras en la frase. Por ejemplo, si
tiene un registro que contiene el texto Buenas presentaciones. y otro registro que contiene
las presentaciones fueron buenas, ambos textos coinciden en la misma regla y aparecen en el
mismo orden que presentacin + buena en los resultados de patrn de concepto en vez de
presentacin + buena as como buena+ presentacin. Y en patrones de dos espacios
como en el ejemplo, los conceptos asignados en la biblioteca Opinions se presentarn por ltimo
en los resultados predeterminados comopastel + malo.

149
Categorizacin de los datos de texto
Tabla 6-9
Sintaxis de patrones y uso de booleanos

Expresin
[]

[a]

[a + b]

[<A> + <B>]

[<A> & <B>]

[a + .]

[<A> + <>]

[a + !(b)]

!([<A> &
<B>])

Coincide con un registro que


Contiene cualquier patrn TLA. Se requiere el delimitador de patrn en las reglas
de categora si est buscando coincidir basndose en un patrn TLA extrado. El
contenido entre los corchetes se refiere a los patrones TLA y no a conceptos y tipos
sencillos. Si no ha extrado este patrn TLA, ninguna coincidencia ser posible.
Si quisiera crear una regla que no incluyera ningn patrn, podra utilizar !([ ]).
Contiene un patrn del que al menos un elemento es a independientemente de su
posicin en el patrn. Por ejemplo, [negocio] puede coincidir con [negocio +
bueno] o solo con [negocio + .]
Contiene un patrn de concepto. Por ejemplo, [negocio + bueno].
Nota: Si solo desea capturar este patrn sin aadir ningn otro elemento, se
recomienda aadir el patrn directamente a su categora en lugar de crear una regla
con l.
Contiene cualquier patrn con el tipo <A> en el primer espacio y el tipo <B> en
el segundo espacio, y hay exactamente dos espacios. El signo + denota que el
orden de los elementos coincidentes es importante. Por ejemplo, [<Budget> +
<Negative>].
Nota: Si solo desea capturar este patrn sin aadir ningn otro elemento, se
recomienda aadir el patrn directamente a su categora en lugar de crear una regla
con l.
Contiene cualquier tipo de patrn con el tipo <A> y el tipo <B>. Por ejemplo,
[<Budget> & <Negative>]. Este patrn TLA no se extraer nunca;
sin embargo, cuando se escribe como tal, es igual a [<Presupuesto> +
<Negativo>]|[<Negativo> + <Presupuesto>]. El orden de los elementos
coincidentes no es importante.
Contiene un patrn donde a es el nico concepto y no existe nada en ningn otro
espacio de este patrn. Por ejemplo:
[negocio + .] coincide con el patrn de concepto en el que el nico resultado
es el concepto negocio. Si ha aadido el concepto negocio como descriptor de
categora, obtendr todos los registros con negocio como concepto incluyendo frases
positivas sobre un negocio. Sin embargo, el uso de [negocio + .] coincidir slo
los resultados de patrn de registros que representen negocio y no otras relaciones u
opiniones, y no coincidir negocio+ fantstico.
Nota: Si solo desea capturar este patrn sin aadir ningn otro elemento, se
recomienda aadir el patrn directamente a su categora en lugar de crear una regla
con l.
Contiene un patrn donde <A> es el nico tipo. Por ejemplo, [<Budget> + <>]
coincide con el patrn en el que el nico resultado es un concepto del tipo <Budget>.
Nota: Puede utilizar <> para denotar un tipo vaco solo cuando se coloca detrs del
smbolo + del patrn en el patrn de tipo, como [<Budget> + <>] pero no en
[precio + <>].
Nota: Si solo desea capturar este patrn sin aadir ningn otro elemento, se
recomienda aadir el patrn directamente a su categora en lugar de crear una regla
con l.
Contiene al menos un patrn que incluye el concepto a pero no incluye el concepto
b. Debe incluir al menos un patrn.
Por ejemplo, [precio + !(alto)]
o para tipos, [!(<Fruta>|<Verduras>) + <Positivo>]
No contiene un patrn especfico. Por ejemplo, !([<Budget> & <Negative>]).

Nota: Entre los ejemplos de cmo coincide la regla con el texto, vase Ejemplos de reglas
de categora el p. 151

150
Captulo 6

Uso de comodines en reglas de categora


Pueden aadirse comodines a los conceptos de las reglas para ampliar las posibilidades de
coincidencia. El comodn asterisco (*) puede colocarse delante y/o detrs de una palabra para
indicar cmo deben coincidir los conceptos. Existen dos tipos de usos de los comodines:

Comodines afijos. Estos comodines se colocan inmediatamente antes o despus de una cadena
sin dejar espacios en blanco entre sta y el asterisco. Por ejemplo, opera* puede coincidir

con operad, operar, operado, operaciones, operativo, etc.

Comodines de palabras. Estos comodines se colocan delante o detrs de un concepto con un


espacio entre ste y el asterisco. Por ejemplo, operacin * puede coincidir con operacin,

operacin quirrgica, postoperacin, etc. Un comodn de palabra puede utilizarse tambin


junto con un comodn afijo, as: * opera* *, que coincidira con operacin, operacin
quirrgica, operadora telefnica, rea de pera, etc. Como puede comprobar en este ltimo
ejemplo, se recomienda utilizar los comodines con precaucin para que el rango no sea
excesivamente amplio y no se capturen coincidencias no deseadas.
Excepciones!

Un comodn nunca puede ser un elemento individual. Por ejemplo, (manzana| * ) no se


aceptara.

Un comodn no se puede utilizar nunca para hacer coincidir nombres de tipo. <Negativo*>
no podr hacer coincidir ningn nombre de tipo.

No puede filtrar algunos tipos para evitar que coincidan con conceptos encontrados a travs de
los comodines. El tipo al que est asignado el concepto se utiliza automticamente.

Un comodn no puede nunca estar situado en el centro de una secuencia de palabras, ni al


final o el comienzo de una palabra (abrir* cuenta) ni como componente independiente
(abrir * cuenta). Tampoco puede utilizar comodines en nombres de tipo. Por ejemplo,
palabra* palabra, como pastel* carne, no coincidir en absoluto con pastelillo
de carne ni ninguna otra opcin. Sin embargo, pastel* * coincidir con pastelillo de
manzana, pastel de chocolate, pastel etc. En otro ejemplo, palabra * palabra, como
pastel * manzana, no coincidir ni con pastel de manzana cida ni con nada ya que el
asterisco aparece entre otras dos palabras. Sin embargo, pastel * coincidir con pastel de
manzana cida, pastel, pastel hojaldrado etc.

Tabla 6-10
Uso de los comodines

Expresin
*tina

mar*

Coincide con un registro que


Contiene un concepto que termina con las letras especificadas pero puede tener un
nmero indefinido de letras como prefijo. Por ejemplo: *tina termina con las letras
tina pero puede tener unos prefijos como stos:
- mar
- cantina
- pegatina
Contiene un concepto que empieza con las letras especificadas pero puede tener un
nmero indefinido de letras como sufijo. Por ejemplo: mar* empieza con las letras mar
pero puede tener unos sufijos como stos:
- mar
- marinero
- maraca
Por ejemplo, mar* & !(sal* | barco), que contiene un concepto que empieza con
las letras mar pero no un concepto que empieza con las letras sal o el concepto barco,
NO coincidiran: mar& barco

151
Categorizacin de los datos de texto

Expresin

*producto*

* ficcin

evento *

* pastel *

Coincide con un registro que


pero podra coincidir con:
- marinero
- mar& montaa
Contiene un concepto que contiene las letras especificadas producto, pero puede tener
un nmero indefinido de letras como prefijo y/o sufijo.
Por ejemplo: *producto* podra coincidir con:
- producto
- subproducto
- productor
Contiene un concepto que contiene la palabra ficcin pero puede ser un compuesto de
otra palabra colocada delante de ella. Por ejemplo, * ficcin puede coincidir con:
- ficcin
- ciencia ficcin
- cine ciencia ficcin
Por ejemplo, [* telefnico + <Negative>] contiene un concepto que termina con
la palabra telefnico en la primera posicin y contiene un tipo <Negative> en la
segunda posicin, lo que podra coincidir con los patrones de conceptos siguientes:
- operador telefnico + ineficaz
- acceso telefnico + lento
Contiene un concepto que contiene la palabra evento pero puede ser un compuesto
seguido de otra palabra. Por ejemplo, evento * puede coincidir con:
- evento
- evento deportivo
- evento musical multitudinario
Contiene un concepto que puede comenzar con cualquier palabra seguida de la palabra
pastel probablemente seguida por otra palabra. * significa 0 o n; por ello coincide
tambin con pastel. Por ejemplo, * pastel * puede coincidir con:
- cielo estrellado
- primera gran estrella fugaz
- famosa estrella polar
- mar
Por ejemplo, [* reserva* * + <Positivo>], que contiene un concepto con la
palabra reserva (independientemente del lugar en que se encuentre el concepto) en
la primera posicin y contiene un tipo <Positivo> en la segunda posicin, puede
coincidir con los patrones de concepto siguientes:
- reserva de hoteles + bien
- reserva en lnea + bien

Nota: Entre los ejemplos de cmo coincide la regla con el texto, vase Ejemplos de reglas
de categora el p. 151

Ejemplos de reglas de categora


Para ayudar a demostrar cmo coinciden las reglas con los registros basados de manera diferente
en la sintaxis utilizada para expresarlos, observe el siguiente ejemplo.
Ejemplo de registros

Imagine que tiene dos registros:

Registro A: Cuando he comprobado mi cartera, he visto que he perdido 5 dlares.

Registro B: Se han encontrado 5 dlares en el rea de picnic, pero se ha perdido la manta.

152
Captulo 6

Las dos tablas siguientes muestran qu se puede extraer de los conceptos y tipos as como los
patrones de concepto y patrones de tipo.
Conceptos y tipos extrados de un ejemplo
Tabla 6-11
Ejemplo de conceptos y tipos extrados

Concepto extrado

Conceptos escritos como

cartera
perdido
5 dlares
manta
rea de picnic

<Desconocido>
<Negativo>
<Moneda>
<Desconocido>
<Desconocido>

Patrones TLA extrados de un ejemplo


Tabla 6-12
Ejemplo de resultados extrados de patrones TLA

Patrones de concepto
extrados

Patrones de tipo extrados

En el registro

rea de picnic + .
cartera + .

<Desconocido> + <>

manta + perdido
5 dlares + .

<Desconocido> +
<Negativo>
<Moneda> + <>

Registro B
Registro A
Registro B

5 dlares + perdido

<Moneda> + <Negativo>

<Desconocido> + <>

Registro B
Registro A

Qu reglas de categora pueden coincidir

La siguiente tabla contiene algunas sintaxis que se pueden introducir en el editor de reglas de
categora. No todas las reglas funcionan aqu y no todas coinciden con los mismos registros. Vea
cmo afectan las diferentes sintaxis a los registros coincidentes.
Tabla 6-13
Reglas de muestra

Sintaxis de la regla
5 dlares & perdido

Resultado
Coincidencias de los registros A y B desde que ambos contienen el
concepto extrado perdido y el concepto extrado 5 dlares.
Esto equivale a:
(5 dlares & perdido)

perdido & 5 dlares

Coincidencias de los registros A y B desde que ambos contienen el


concepto extrado perdido y el concepto extrado 5 dlares.
Esto equivale a:
(perdido & 5 dlares)

perdido & <Moneda>

Coincide con los registros A y B puesto que ambos contienen el


concepto extrado perdido y un concepto que coincide con el
tipo <Moneda>. Esto equivale a:
(perdido & <Moneda>)

<Moneda> & perdido

Coincide con los registros A y B puesto que ambos contienen el


concepto extrado perdido y un concepto que coincide con el
tipo <Moneda>. Esto equivale a:
(<Moneda> & perdido)

153
Categorizacin de los datos de texto

Sintaxis de la regla
[5 dlares + perdido]

Resultado
Coincide con A pero no con B puesto que el registro B no genera
ningn resultado de patrn TLA que contiene 5 dlares +
perdido (consulte la tabla anterior). Esto es equivalente al
resultado de patrn TLA:
5 dlares + perdido

[perdido + 5 dlares]

No coincide ni con el registro A ni con B puesto que ningn patrn


TLA extrado (consulte la tabla anterior) coincide con el orden
expresado aqu usando perdido en la primera posicin. Esto es
equivalente al resultado de patrn TLA:
5 dlares + perdido

[perdido & 5 dlares]

[perdido+ <Moneda>]

[<Moneda> + <Negativo>]

Coincide con A pero no con B puesto que no se extrajo dicho


patrn TLA del registro B. El uso del carcter & indica que el orden
no es importante al realizar la coincidencia; por lo que esta regla
busca un patrn que coincida indistintamente con [perdido + 5
dlares] o [5 dlares + perdido]. Slo [5 dlares +
perdido] del registro A tiene una coincidencia.
No coincide ni con el registro A ni con B ya que ningn patrn TLA
extrado coincide con este orden. Esto no tiene equivalente, puesto
que el resultado de TLA slo se basa en trminos (5 dlares
+ perdido) o en tipos (<Moneda> + <Negativo>), pero no
mezcla conceptos y tipos.
Coincide con el registro A pero no con B puesto que no se ha
extrado ningn patrn TLA del registro B. Esto equivale al
resultado de TLA:
<Moneda> + <Negativo>

[<Negativo> + <Moneda>]

No coincide ni con el registro A ni con B ya que ningn patrn


TLA extrado coincide con este orden. En la plantilla Opinions
, por defecto, cuando un tema se halla con una opinin, el tema
(<Moneda>) ocupa el primer espacio y opinin (<Negativo>)
ocupa el segundo espacio.

Creacin de reglas de categora


Cuando cree o edite una regla, deber tenerla abierta en un editor de reglas. Puede aadir
conceptos, tipos o patrones y utilizar comodines para ampliar las coincidencias. Cuando se
utilizan conceptos, tipos y patrones reconocidos, tiene la ventaja de que encontrar todos los
conceptos relacionados. Por ejemplo, cuando utiliza un concepto, todos sus trminos asociados,
formas plurales y sinnimos tambin se asocian con la regla. De la misma forma, cuando utiliza
un tipo, la regla tambin captura todos sus conceptos.
Puede abrir el editor de reglas editando una regla existente o pulsando el botn derecho del
ratn en el nombre de la categora y eligiendo Crear regla.
Figura 6-25
Panel del editor de reglas

154
Captulo 6

Puede utilizar mens contextuales, la accin de arrastrar y soltar o especificar manualmente


conceptos, tipos y patrones en el editor. Luego puede combinarlos con operadores booleanos (&,
!(), |) y corchetes para crear las expresiones de las reglas. Para evitar errores comunes, se
recomienda arrastrar los conceptos directamente desde el panel Resultados extrados o desde el
panel Datos y soltarlos en el editor de reglas. Preste especial atencin en la sintaxis de las reglas
para evitar errores. Si desea obtener ms informacin, consulte el tema Sintaxis de regla de
categora el p. 146.
Nota: Entre los ejemplos de cmo coincide la regla con el texto, vase Ejemplos de reglas
de categora el p. 151
Para crear una regla
E Si no ha extrado an ningn dato o su extraccin est fuera de la fecha, hgalo ahora. Si desea

obtener ms informacin, consulte el tema Extraccin de datos en el captulo 5 el p. 82.


E En el panel Categoras, seleccione la categora en la que desea aadir una regla.
E En los mens elija Categoras > Crear regla. El panel del editor de reglas de categora se abre en

la ventana.
E En la columna Nombre de regla, escriba un nombre para la regla. Si no proporciona un nombre, se

utilizar automticamente la expresin como nombre. Puede cambiar el nombre de la regla en


otro momento.
E En el campo de texto de expresin ms largo puede:

Escribir texto directamente en el campo o arrastrarlo desde otro panel y soltarlo aqu. Utilice
solo conceptos extrados, tipos y patrones. Por ejemplo, si especifica la palabra gatos
pero en el panel Resultados extrados solo aparece en singular, gato, el editor no podr
reconocer gatos. En este ltimo caso, el singular puede incluir automticamente el plural,
de lo contrario deber utilizar un comodn. Si desea obtener ms informacin, consulte el
tema Sintaxis de regla de categora el p. 146.

Seleccione los conceptos, tipos o patrones que desee aadir a las reglas y utilice los mens.

Aada operadores booleanos para enlazar los elementos de la regla. Utilice los botones de la
barra de herramientas para aadir el booleano and &, el booleano or |, el booleano not
!(), parntesis () y corchetes para patrones [ ] en la regla.

E Pulse en el botn Probar regla para verificar que la regla tiene un formato correcto. Si desea

obtener ms informacin, consulte el tema Sintaxis de regla de categora el p. 146. El nmero de


registros encontrados aparece entre parntesis junto al texto Resultado de la prueba. A la derecha
de este texto puede ver los elementos de la regla que se han reconocido o posibles mensajes de
error. Si el grfico junto al tipo, patrn o concepto aparece con un signo de interrogacin rojo,
significa que el elemento no coincide con ninguna extraccin conocida. Si no coincide, la regla no
encontrar ningn registro.
E Para probar una parte de la regla, seleccione dicha parte y pulse en Probar seleccin.
E Realice los cambios necesarios y vuelva a probar la regla si encontr problemas.

155
Categorizacin de los datos de texto
E Cuando termine, pulse en Guardar & Cerrar para guardar otra vez la regla y cerrar el editor. El

nuevo nombre de la regla aparece en la categora.


Figura 6-26
Regla en el panel Categoras

Edicin y eliminacin de reglas


Despus de crear y guardar una regla, puede editarla en cualquier momento. Si desea obtener ms
informacin, consulte el tema Sintaxis de regla de categora el p. 146.
Si ya no desea una regla, puede eliminarla.
Para editar reglas
E En el panel de categoras, seleccione la regla que desea editar.
E En los mens elija Categoras > Editar regla o pulse dos veces en el nombre de la regla. El editor

se abre con la regla seleccionada.


E Realice cambios en la regla utilizando los resultados extrados y los botones de la barra de

herramientas.
E Vuelva a probar la regla para asegurarse de que arroja los resultados esperados.
E Pulse en Guardar & Cerrar para guardar otra vez la regla y cerrar el editor.

Para eliminar una regla


E En el panel de categoras, seleccione la regla que desea eliminar.
E En los mens elija Editar > Eliminar. La regla se elimina de la categora.

156
Captulo 6

Edicin y refinamiento de categoras


Una vez creadas algunas categoras, querr examinarlas y realizar en ellas algunos ajustes.
Adems de refinar los recursos lingsticos, debe revisar las categoras y averiguar maneras de
combinar o limpiar las definiciones, as como comprobar algunos de los registros categorizados.
Tambin puede revisar los registros de una categora y realizar ajustes para que las categoras se
definan de tal forma que puedan captarse todos los matices y distinciones.
Puede utilizar las tcnicas automticas de generacin para crear las categoras; sin embargo,
seguramente querr realizar algunos ajustes en estas categoras. Despus de utilizar una tcnica o
ms, en la ventana aparecern una serie de categoras nuevas. Luego puede revisar los datos de
una categora y realizar ajustes hasta que est conforme con las definiciones de categora. Si desea
obtener ms informacin, consulte el tema Acerca de las categoras el p. 107.
A continuacin mostramos algunas opciones para refinar sus categoras, la mayora de las cuales
estn descritas en las pginas siguientes:

Editar las propiedades de las categoras (cambiar el nombre, aadir etiquetas, aadir
anotaciones)

Adicin de descriptores a las categoras

Edicin de categoras

Mover categoras

Aplanar categoras jerrquicas

Fusionar categoras

Aadir texto coincidente

Forzar respuestas dentro de las categoras

Copiar y reutilizar categoras

Eliminar categoras

Realizar cambios en los recursos lingsticos y repetir la extraccin.

Visualizar el modo de funcionamiento conjunto de las categoras y realizar ajustes. Si desea


obtener ms informacin, consulte el tema Visualizacin de grficos en el captulo 7 el p. 167.

Edicin de las propiedades de las categoras


Al igual que ocurre con otros muchos elementos en IBM SPSS Text Analytics for Surveys,
puede editar las propiedades de las categoras: nombre, etiqueta, anotaciones y entradas avanzadas
de coincidencia de texto. Si desea obtener ms informacin, consulte el tema Propiedades de
categora el p. 108. Adems de las propiedades que puede editar, tambin puede ver el nmero
de elementos que se incluye en la definicin de la categora, es decir, el nmero de trminos,
tipos, patrones TLA o reglas de categora que conforman dicha categora. Tambin se muestra
el nmero de cdigo y se corresponde con el valor de cdigo encontrado en el Administrador
de marcos de cdigo.

157
Categorizacin de los datos de texto

Para editar las propiedades de categoras:


E En los mens elija Categoras > Propiedades de categora. Aparecer el cuadro de dilogo

Propiedades de categora.
Figura 6-27
Dilogo Propiedades de categora

E Si lo desea puede cambiar el nombre de la categora especificando un nombre nuevo en el

campo Nombre.
E Cambie el nombre o la etiqueta de la categora.
E Para utilizar la etiqueta en la interfaz, como en el panel Categora, en lugar del nombre de
categora, seleccione Mostrar etiqueta en lugar del nombre.
E Si lo desea, escriba una anotacin en el campo Anotacin.
E Para forzar una palabra o frase en una definicin de categora, pulse en Opciones avanzadas y

escriba las coincidencias del texto en la tabla. Si desea obtener ms informacin, consulte el tema
Coincidencia de texto en las categoras el p. 162.
E Pulse en Aceptar para aplicar los cambios.

Aadir descriptores a las categoras


Despus de utilizar las tcnicas automticas, lo ms probable es que an tenga resultados
extrados que no se utilizaron en ninguna definicin de categora. Debe revisar esta lista en el
panel Resultados extrados. Si encuentra elementos que deseara mover a una categora, puede
aadirlos a una categora nueva o existente.

158
Captulo 6

Para aadir un concepto o un tipo a una categora


E Desde los paneles Datos y Resultados extrados, seleccione los elementos que desea aadir a una

categora nueva o existente.


E En los mens elija Categoras > Aadir a categora. El cuadro de dilogo Todas las categoras

presenta el conjunto de categoras. Seleccione la categora a la que desee aadir los elementos
seleccionados. Si desea aadir los elementos a una categora nueva, seleccione Nueva categora.
Aparece una categora nueva en el panel Categoras con el nombre del primer elemento
seleccionado.
Figura 6-28
Cuadro de dilogo Todas las categoras

Edicin de descriptores de categora


Una vez que haya creado algunas categoras, puede abrir cada una de ellas para ver todos los
descriptores que conforman su definicin. En el cuadro de dilogo Definiciones de categora,
puede realizar una serie de ediciones en los descriptores de categora. Adems, si se muestran las
categoras en el rbol de categoras, puede tambin trabajar con ellos all mismo.
Para editar una categora
E Seleccione la categora que desea editar en el panel Categoras.
E En los mens elija Ver > Definiciones de categora. Aparecer el cuadro de dilogo Definiciones de

categora.

159
Categorizacin de los datos de texto
Figura 6-29
Cuadro de dilogo Definiciones de categora

E Seleccione el descriptor que desea editar y pulse en el botn correspondiente de la barra de

herramientas.
En la tabla siguiente se describe cada botn de la barra de herramientas con los que podr editar
las definiciones de categora.
Tabla 6-14
Descripciones y botones de la barra de herramientas

Iconos

Descripcin
Elimina los descriptores seleccionados de la categora.
Mueve los descriptores seleccionados a una categora nueva o existente.
Mueve los descriptores seleccionados en forma de una regla de categora & a una categora.
Si desea obtener ms informacin, consulte el tema Uso de reglas de categora el p. 145.
Mueve cada uno de los descriptores seleccionados como su propia categora nueva
Actualiza lo que se muestra en el panel Datos y en el panel Visualizacin en funcin

Representacin
de los descriptores seleccionados

Cmo mover categoras


Si desea colocar una categora en otra categora, o mover descriptores a otra categora, puede
moverla.

160
Captulo 6

Para mover una categora


E En el panel Categoras, seleccione las categoras o descriptores que desea mover a otra categora.
E En los mens elija Categoras > Mover a categora. El men muestra un conjunto de categoras, y la

creada ms recientemente figura al principio de la lista. Seleccione el nombre de la categora a la


que desea mover los conceptos seleccionados.

Si puede ver el nombre que est buscando, seleccinelo; acto seguido los elementos
seleccionados se aaden a dicha categora.

Si no lo encuentra, seleccione Ms para mostrar el cuadro de dilogo Todas las categoras, y


seleccione la categora de la lista que aparece.

Figura 6-30
Cuadro de dilogo Todas las categoras

Fusin o combinacin de categoras


Si desea combinar dos o ms categoras en una categora nueva, puede fusionarlas. Cuando se
fusionan categoras, se crea una categora nueva con un nombre genrico. Todos los conceptos,
tipos y patrones que se utilizan en los descriptores de categoras se mueven a la nueva categora.
Ms tarde podr cambiar el nombre de la categora editando sus propiedades. Si desea obtener
ms informacin, consulte el tema Edicin de las propiedades de las categoras el p. 156.
Para fusionar una categora o parte de una categora
E En el panel Categoras, seleccione los elementos que desea fusionar.

161
Categorizacin de los datos de texto
E En los mens elija Categoras > Fusionar categoras. Aparecer el cuadro de dilogo Propiedades

de categora en el que debe introducir un nombre para la categora recin creada. Las categoras
seleccionadas se combinan en la nueva categora como subcategoras.

Forzado de respuestas dentro de categoras


Forzar respuestas dentro y fuera de las categoras permite sustituir las definiciones de categora
creadas por las tcnicas automticas de generacin de categoras sin cambiar la definicin real de
la categora. Es posible que, aunque la respuesta contenga trminos que se utilizan para definir
una categora determinada, la respuesta propiamente dicha no debera estar en dicha categora.
En tal caso, puede forzar la respuesta fuera de dicha categora sin necesidad de eliminar los
trminos de la definicin de categora.
La accin de Forzar se utiliza en casos especiales en que una respuesta se adapta, o no, a una
categora, pero que por alguna razn, por ejemplo, porque contiene un trmino determinado, se
asigna o no a dicha categora. Esto suele ocurrir cuando el encuestado utiliza el sarcasmo para
responder, por ejemplo La pizza estaba riqusima. Estoy segura que a todo el mundo le gusta
la pizza fra y requemada. Supongamos que tiene una categora llamadaPos: [<Comida>
+ <Positive>] para capturar las opiniones positivas sobre la comida que se sirve en un
restaurante; esta respuesta podra asignarse a dicha categora. En este caso, probablemente quiera
forzar esta respuesta fuera de la categora.
Para forzar respuestas dentro o fuera de categoras
E En el panel Datos seleccione la respuesta que desea forzar dentro o fuera de una categora

determinada.
E En los mens elija Categoras > Forzar respuesta dentro o Categoras> Forzar respuesta fuera. En

un submen aparecer la lista de categoras para seleccionar.


E Seleccione la categora en la que, o fuera de la que, desea forzar la respuesta. Si ha creado muchas

categoras, es posible que no todas aparezcan en el submen.

En ese caso, elija Ms en la parte inferior del submen. Se abrir el cuadro de dilogo Todas las
categoras, en el que podr seleccionar la categora y pulsar en Aceptar para aplicar el cambio.

Si desea forzar la respuesta dentro de una categora nueva, seleccione Nueva categora vaca.
Aparece una nueva categora en el rbol de categoras con un nombre genrico.

Cuando una categora contiene una o ms respuestas forzadas, aparece una pseudo-categora
denominada Forzar dentro o Forzar fuera debajo del nombre de categora en el rbol. Tambin
puede indicar qu respuestas se fuerzan dentro o fuera de una categora mostrando las columnas
Forzar dentro y Forzar fuera en el panel Datos. Si desea obtener ms informacin, consulte
el tema El panel de datos el p. 97.
Para borrar un estado de respuesta forzada
E En el panel Datos seleccione la respuesta que ya no desea forzar dentro o fuera de una categora.

162
Captulo 6
E En los mens elija Categoras > Forzar respuesta dentro para forzar la respuesta dentro, o elija
Categoras> Forzar respuesta fuera para forzarla fuera. Las categoras en las que la respuesta se ha

forzado dentro o fuera estn precedidas por una marca de verificacin.


Figura 6-31
Forzar respuestas desde el panel Datos

E Seleccione la categora en el submen que est marcada y para la que desea eliminar la accin de

forzar. La marca de verificacin se borra y la respuesta deja de estar forzada.


Para borrar un estado de respuesta forzada
Para borrar todos los estados de respuesta forzados:
E En los mens elija Categoras > Borrar todos > Forzar dentro o Categoras > Borrar todos > Forzar
fuera. El estado forzado de las respuestas se borra y stas dejan de estar forzadas dentro o fuera de

las categoras.

Coincidencia de texto en las categoras


Si ha intentado forzar la extraccin de una palabra o frase a travs de los recursos lingsticos y
todava no ha conseguido la extraccin debido a otras reglas de gestin lingstica, puede crear
una entrada de coincidencia de texto para asignar directamente las categoras que contienen dicho
texto a una categora determinada sin utilizar los resultados extrados.
Cuando se aaden entradas de coincidencia de texto (una palabra o frase) en una categora,
IBM SPSS Text Analytics for Surveys asignar automticamente las respuestas que contienen
la palabra o frase a esta categora. La coincidencia de texto solo debe utilizarse si ya ha intentado
aadir esta palabra a los recursos lingsticos para beneficiarse al mximo de esta definicin. Si
desea obtener ms informacin, consulte el tema Forzado de trminos en el captulo 10 el p. 222.

163
Categorizacin de los datos de texto

Cuando una coincidencia de texto se aade a una definicin de categora, aparece una
pseudo-categora denominada Coincidencia de texto debajo de la categora en el rbol de
categoras. Si desea obtener ms informacin, consulte el tema El panel de datos el p. 97.
Tambin puede eliminar entradas de esta tabla seleccionando la fila o filas que desea eliminar y
pulsando en el botn Eliminar.
Para aadir una entrada de coincidencia de texto a una definicin de categora:
E En el panel Datos, identifique la palabra o frase que desea forzar dentro de una definicin de

categora.
E En el panel Categoras, seleccione la categora dentro de la que desea forzar esta palabra o frase.
E En los mens elija Categoras > Propiedades de categora. Aparecer el cuadro de dilogo

Propiedades de categora.
E Pulse en Opciones avanzadas. Aparecer el cuadro de dilogo Coincidencia de texto.
Figura 6-32
Cuadro de dilogo Coincidencia de texto

E En la tabla, escriba la palabra o frase en la primera casilla de la columna Texto.


E Seleccione la forma en que esta palabra o frase debe coincidir con el texto que se encuentra

en las respuestas. Para que la palabra o frase coincida exactamente con lo que haya escrito,
seleccione la palabra o frase completa. Para que la palabra o frase coincida con frases ms largas,
seleccione cadena parcial.
E Si la palabra o frase que ha introducido distingue entre maysculas y minsculas, seleccione
coincidir maysculas y minsculas en la columna Maysculas y minsculas.
E Pulse en Aceptar para guardar los cambios y cerrar el cuadro de dilogo. El nmero de respuestas

asignadas a la categora utilizando entradas de coincidencia de texto se actualiza y se muestra en


el cuadro de dilogo.
E Pulse en Aceptar para aplicar los cambios.

164
Captulo 6

Copia de categoras
Si utiliza las mismas preguntas u otras similares en una o ms encuestas, la reutilizacin de
definiciones de categoras es una opcin que le ahorrar mucho tiempo. Puede copiar las
categoras de una pregunta a otra en el mismo proyecto. Al reutilizar categoras debe repetir la
extraccin para poder hacer coincidir las categoras con los datos de respuestas. Antes de volver a
extraer, las categoras aparecen en el panel Categoras con un signo de interrogacin (?) en lugar
del recuento de frecuencia.
Nota: Para reutilizar categoras en otro proyecto se recomienda hacer un paquete de anlisis de
texto (TAP) con las categoras y los recursos del proyecto y utilizar dicho paquete cuando cree el
nuevo proyecto con el asistente. Si desea obtener ms informacin, consulte el tema Uso de los
paquetes de anlisis de texto en el captulo 3 el p. 41.
Para copiar categoras en el mismo proyecto
E Vaya a la pregunta cuyas categoras desea copiar.
E En el rbol del panel Categoras seleccione todas las categoras.
E En los mens elija Editar > Copiar para copiar las categoras.
E Vaya a la pregunta (Ver > Pregunta) en la que desea pegar estas categoras.
E En los mens elija Editar > Pegar para pegar las categoras. Las categoras se aaden al panel. Los

recuentos de frecuencia no estn disponibles porque no ha realizado la reextraccin. Por lo tanto,


en lugar de los recuentos aparecen signos de interrogacin (?).

Impresin de categoras
Puede imprimir la vista de rbol del panel Categoras.
Para imprimir la vista de rbol de categoras
E En el rbol del panel Categoras, expanda, contraiga u ordene los tres elementos segn lo que

desea que se imprima.


E En los mens elija Archivo > Imprimir> Imprimir categoras. Aparece el cuadro de dilogo

Presentacin preliminar.

165
Categorizacin de los datos de texto
Figura 6-33
Cuadro de dilogo Presentacin preliminar

E Pulse en el botn de impresin para imprimir la vista tal como aparece en el cuadro de dilogo.

166
Captulo 6

Eliminacin de categoras
Si ya no desea conservar una categora, puede eliminarla. Cuando se elimina una categora,
los conceptos que no se utilizan en otra categora quedan visibles en la pestaa Extracciones
no usadas en el panel Resultados extrados.
Para eliminar una categora
E En el panel Categoras, seleccione la categora o categoras que desea eliminar.
E En los mens elija Editar > Eliminar.

Captulo

Visualizacin de grficos

Cuando se generan categoras, es importante dedicar un tiempo a revisar las definiciones de


categoras, las respuestas que contienen y de qu modo se superponen las categoras. El panel
de visualizacin ofrece varias perspectivas sobre sus categoras. El panel de visualizacin se
encuentra en el ngulo superior derecho de la vista Pregunta. Si no est visible, puede acceder a
este panel desde el men Ver (Ver > Paneles > Visualizacin).
En esta vista, el panel de visualizacin ofrece tres perspectivas sobre las similitudes en la
categorizacin de respuestas. Todos estos grficos de este panel pueden utilizarse para analizar
los resultados de la categorizacin y ayudarle a ajustar las categoras o los informes. Cuando se
refinan las categoras, puede utilizar este panel para revisar las definiciones de categora con el
objeto de descubrir las que resultan demasiado similares (por ejemplo, si comparten ms del 75%
de las respuestas) o demasiado distintas. Si hay dos categoras demasiado similares entre s, puede
resultar til combinar las dos categoras. Como alternativa, puede refinar las definiciones de
categora eliminando determinados descriptores de una categora o de otra. Puede copiar, pegar e
imprimir los resultados de este panel para ayudarle en el anlisis o para generar informes.
Figura 7-1
Panel Categora y panel Visualizacin

En funcin de lo que haya seleccionado en el panel Resultados extrados o Categoras, puede


ver las interacciones correspondientes entre las respuestas y las categoras de cada una de las
pestaas del panel. Cada una presenta informacin similar, pero de una forma distinta o con
un nivel diferente de detalle. En caso necesario, puede personalizar los colores utilizados en
estos diagramas y grficos en el cuadro de dilogo Opciones. Si desea obtener ms informacin,
consulte el tema Opciones: Pestaa Mostrar en el captulo 2 el p. 19.
Nota: Tambin puede generar grficos de resumen, por ejemplo, un grfico de barras Las
5 categoras principales. Estos grficos, que se exportan en HTML, pueden utilizarse en
presentaciones. Si desea obtener ms informacin, consulte el tema Exportacin de grficos de
resumen en el captulo 4 el p. 58.
El panel de visualizacin ofrece los diagramas y grficos siguientes:

Grfico de barras de categorasUna tabla y un grfico de barras que muestra la superposicin

entre las respuestas que corresponden a su seleccin y a las categoras asociadas. El grfico
de barras tambin muestra la proporcin de respuestas en las categoras con el nmero total
de respuestas. Tambin puede seleccionar una variable de referencia, si es que ha importado
Copyright IBM Corporation 2004, 2011.

167

168
Captulo 7

alguna, para comparar los valores de las variables de referencia de los registros de cada
categora. Si desea obtener ms informacin, consulte el tema Grfico de barras de categoras
el p. 168.

Grfico de malla de categoras. Este grfico presenta la superposicin de respuestas

correspondientes a las categoras a las que pertenecen las respuestas segn la seleccin en
los otros paneles. Si desea obtener ms informacin, consulte el tema Grfico de malla de
categoras el p. 169.

Tabla de malla de categoras. Esta tabla presenta la misma informacin que la pestaa Malla de

categoras, pero en formato de tabla. La tabla contiene tres columnas que pueden ordenarse
pulsando en las cabeceras de columna. Si desea obtener ms informacin, consulte el tema
Tabla de malla de categoras el p. 170.
Si desea obtener ms informacin, consulte el tema Categorizacin de los datos de texto en el
captulo 6 el p. 93.

Grfico de barras de categoras


Esta pestaa presenta una tabla y un grfico de barras que muestra la superposicin entre las
respuestas que corresponden a su seleccin y a las categoras asociadas. El grfico de barras
tambin muestra la proporcin de respuestas en las categoras con el nmero total de respuestas.
No se puede editar el diseo de este grfico.
Tambin puede utilizar los mens contextuales de este grfico de barras para ordenar columnas,
cambiar los colores del grfico, seleccionar el contenido del grfico, copiar el contenido y mostrar
u ocultar la leyenda.
El grfico contiene las columnas siguientes:

Categora. Esta columna presenta el nombre de las categoras que ha seleccionado. Por

defecto, la categora ms comn de su seleccin aparece en el primer lugar de la lista.

Barra. Esta columna presenta, de una manera visual, la proporcin de registros de una

categora determinada con el nmero total de registros.

Seleccin %. Esta columna presenta el porcentaje basado en la proporcin del nmero total de

registros de una categora con el nmero total de registros representados en la seleccin.

Respuestas Esta columna presenta el nmero de respuestas de una seleccin correspondientes

a una categora determinada.

Total %. Esta columna presenta un porcentaje basado en la proporcin del nmero total de

registros de una categora determinada comparado con el nmero total de registros de esta
pregunta (no de la seleccin).
Tambin puede seleccionar una variable de referencia disponible desde la lista desplegable, para
comparar su valores. Cuando selecciona una variable de referencia, las barras de la tabla estn
divididas y codificadas por colores segn los valores de las variables de referencia. Si pulsa
en cada valor de referencia coloreado de la barra, el panel Datos se actualiza para mostrar la
subseleccin de respuestas en funcin del valor de la variable de referencia. Para ver una leyenda
de los valores de las variables de referencia, pulse en el botn de la barra de herramientas Leyenda.

169
Visualizacin de grficos
Figura 7-2
Botn de la barra de herramientas Leyenda

Figura 7-3
Panel Visualizacin: Barra de categoras

Grfico de malla de categoras


Esta pestaa muestra un grfico de malla de categoras. Este grfico presenta la superposicin de
respuestas correspondientes a las categoras a las que pertenecen las respuestas segn la seleccin
en los otros paneles. Si existen etiquetas de categora, estas aparecen en el grfico. Puede elegir
un diseo de grfico (de red, circular, direccional o de cuadrcula) mediante los botones de la
barra de herramientas de este panel.
Figura 7-4
Grfico de malla de categoras, diseo de cuadrcula

170
Captulo 7

En la malla, cada nodo representa una categora. Con el ratn puede seleccionar y mover los
nodos en el panel. El tamao del nodo representa el tamao relativo basado en el nmero de
registros de dicha categora en su seleccin. El grosor y el color de la lnea entre dos categoras
denotan el nmero de registros comunes que tienen. Si pasa el ratn por encima de un nodo en el
modo Explorar, la informacin de la herramienta muestra el nombre (o etiqueta) de la categora y
el nmero global de registros en la categora.
Nota: Por defecto est activado el modo Explorar para los grficos, donde puede mover nodos.
Sin embargo, puede cambiar al modo Editar para modificar el diseo de los grficos, incluidos los
colores, las fuentes, las leyendas, etc. Si desea obtener ms informacin, consulte el tema Uso de
barras de herramientas y paletas de grficos el p. 170.

Tabla de malla de categoras


Esta tabla presenta la misma informacin que la pestaa Malla de categoras, pero en formato
de tabla. La tabla contiene tres columnas que pueden ordenarse pulsando en las cabeceras de
columna:

Recuento. Esta columna presenta el nmero de registros compartidos o comunes entre las

dos categoras.

Categora 1. Esta columna presenta el nombre de la primera categora seguido por el nmero

total de registros que contiene, entre parntesis.

Categora 2. Esta columna presenta el nombre de la segunda categora seguido por el nmero

total de registros que contiene, entre parntesis.


Figura 7-5
Panel Visualizacin: Tabla de malla de categoras

Uso de barras de herramientas y paletas de grficos


El grfico de malla de categoras dispone de una barra de herramientas que ofrece acceso rpido a
algunas paletas comunes en las que podr realizar un nmero de acciones en los grficos. Puede
elegir entre el modo de vista Exploracin o el modo de vista Edicin.
Mientras el modo de exploracin le permite explorar analticamente los datos y valores
representados por la visualizacin, el modo de edicin le permite cambiar el diseo y aspecto de la
visualizacin. Por ejemplo, puede cambiar las fuentes y colores para que coincidan con el manual

171
Visualizacin de grficos

de estilo de su organizacin. Para seleccionar este modo, seleccione Ver > Panel Visualizacin >
Modo edicin de los mens (o pulse en el icono de la barra de herramientas).
En el modo de edicin hay varias barras de herramientas que afectan a distintos aspectos del
diseo de la visualizacin. Si no utiliza algunas de ellas, puede ocultarlas para ampliar el espacio
del cuadro de dilogo en el que aparece el grfico. Para seleccionar o anular la seleccin de las
barras de herramientas, pulse en el nombre de la barra de herramientas o paleta correspondiente
en el men Ver.
Tabla 7-1
Botones de la barra de herramientas de Text Analytics

Botn/Lista

Descripcin
Activa el modo de edicin. Pase al modo edicin para cambiar el aspecto del grfico:
puede agrandar la fuente, cambiar los colores para que se adapten al estilo corporativo
de su empresa o eliminar etiquetas y leyendas. Si desea obtener ms informacin,
consulte el tema Edicin de visualizaciones el p. 171.
Activa el modo de exploracin. Por defecto, el modo de exploracin est activado, lo
que significa que puede mover y arrastrar nodos por el grfico y pasar el ratn sobre los
objetos del grfico para revelar informacin adicional.
Seleccione un tipo de malla que mostrar para los grficos.
Diseo circular. Diseo general que puede aplicarse a cualquier grfico. Organiza
un grfico teniendo en cuenta que los enlaces no tienen direccin y trata a todos los
nodos por igual. Los nodos solo se colocan alrededor del permetro de un crculo.
Diseo de red. Diseo general que puede aplicarse a cualquier grfico. Organiza un
grfico teniendo en cuenta que los enlaces no tienen direccin y trata a todos los
nodos por igual. Los nodos se colocan libremente por el diseo.
Diseo direccional. Un diseo que solo debera utilizarse para grficos
direccionales. Este enlace genera estructuras de rbol a partir de los nodos raz
hasta los nodos ramales, y las organiza por colores.
Diseo de cuadrcula. Diseo general que puede aplicarse a cualquier grfico.
Organiza un grfico teniendo en cuenta que los enlaces no tienen direccin y
trata a todos los nodos por igual. Los nodos solo se colocan en los puntos de la
cuadrcula en el espacio.
Botn de conmutacin que, cuando se pulsa, muestra la leyenda. Cuando el botn
no est pulsado, la leyenda queda oculta.
Botn de conmutacin que, cuando se pulsa, muestra el Control deslizante de enlaces
bajo el grfico. Puede filtrar los resultados deslizando la flecha.

Edicin de visualizaciones
Tiene varias opciones para editar una visualizacin en el Modo de edicin. Puede:

Editar texto y darle formato.

Cambiar el color de relleno, la transparencia y el patrn de marcos y elementos grficos.

Cambiar el color y el estilo de guin de los bordes y las lneas.

Girar y cambiar la forma y la relacin de aspecto de los elementos de punto.

Cambiar el tamao de los elementos grficos (como barras y puntos).

Ajustar el espacio que rodea a los elementos mediante mrgenes y relleno.

Especificar un formato para los nmeros.

Cambiar la configuracin del eje y la escala.

172
Captulo 7

Ordenar, excluir y contraer categoras en un eje categrico.

Definir la orientacin de los paneles.

Aplicar transformaciones a un sistema de coordenadas.

Cambiar estadsticos, tipos de elementos grficos y modificadores de colisin.

Cambiar la posicin de la leyenda.

Aplicar hojas de estilo de visualizacin.

Los siguientes temas describen cmo se pueden realizar estas distintas tareas. Tambin se
recomienda leer las reglas generales de edicin de grficos.
Para cambiar al modo de edicin
E Elija en los mens:
Ver > Modo de edicin

Reglas generales de edicin de visualizaciones


Modo de edicin

Todas las ediciones se realizan en modo de edicin. Para activarlo, elija en los mens:
Ver > Modo de edicin

Seleccin

Las opciones disponibles para edicin dependen de la seleccin. Se activan diferentes opciones de
la barra de herramientas y la paleta de propiedades segn lo que se seleccione. Slo se aplican
a la seleccin actual los elementos activados. Por ejemplo, si se selecciona un eje, las pestaas
Escalas, Marca mayor y Marcas menores estarn disponibles en la paleta de propiedades.
A continuacin mostramos algunos consejos para seleccionar elementos de la visualizacin:

Pulse en un elemento para seleccionarlo.

Seleccione un elemento grfico (como los puntos de un diagrama de dispersin o las barras de
un grfico de barras) pulsando una vez. Tras la seleccin inicial, vuelva a pulsar para reducir
la seleccin a grupos de elementos grficos o a un nico elemento grfico.

Pulse en Esc para anular la seleccin de todo.

Paletas

Cuando se selecciona un elemento de la visualizacin, las diferentes paletas se actualizan para


reflejar la seleccin. Las paletas contienen controles para realizar las modificaciones en la
seleccin. Las paletas pueden ser barras de herramientas o un panel con mltiples controles y
pestaas. Las paletas pueden estar ocultas, por lo que hay que asegurarse de que se muestra
la paleta adecuada para realizar las ediciones. Compruebe en el men Ver las paletas que se
muestran actualmente.

173
Visualizacin de grficos

Puede cambiar la posicin de las paletas pulsando y arrastrando el espacio vaco de una paleta
de barra de herramientas o en la parte izquierda de otras paletas. La informacin visual le permite
saber dnde anclar la paleta. En el caso de paletas que no son de la barra de herramientas, tambin
puede hacer en el botn cerrar para ocultar la paleta y en el botn desanclar para mostrar la paleta
en una ventana diferente. Pulse el botn ayuda para mostrar la ayuda de la paleta especfica.
Configuracin automtica

Algunos parmetros de configuracin incluyen la opcin -automtico-. Esto indica que se aplican
valores automticos. Los ajustes automticos que se utilizarn dependen de la visualizacin
especfica y los valores de los datos. Puede introducir un valor que sustituya a la configuracin
automtica. Si desea restaurar la configuracin automtica, elimine el valor actual y pulse en
Entrar. El parmetro volver a mostrar la opcin -automtico-.
Eliminacin y ocultacin de elementos

Puede eliminar u ocultar varios elementos en la visualizacin. Por ejemplo, puede ocultar la
leyenda o la etiqueta del eje. Seleccione un elemento y pulse la tecla Supr para eliminarlo. Si
no se permite eliminar ese elemento, no se realizar ninguna accin. Si elimina un elemento por
accidente, pulse Ctrl+Z para deshacer la eliminacin.
Estado

Algunas barras de herramientas muestran el estado de la seleccin actual, mientras que otras no.
La paleta de propiedades siempre muestra el estado. Si una barra de herramientas no muestra el
estado, se indicar en el tema que describe dicha barra de herramientas.

Edicin y formato de texto


Puede editar texto directamente y cambiar el formato de un bloque de texto entero. Tenga en
cuenta que no podr editar texto directamente enlazado a valores de datos. Por ejemplo, no
podr editar una etiqueta de marca, ya que su contenido se deriva de los datos subyacentes. Sin
embargo, puede formatear cualquier texto de la visualizacin.
Cmo editar texto directamente
E Pulse dos veces en el bloque de texto. De esta forma se selecciona todo el texto. Todas las barras

de texto se desactivarn en este momento, ya que no podr cambiar ninguna otra parte de la
visualizacin mientras edita el texto.
E Escriba sobre el texto que desea sustituir. Tambin puede volver a pulsar en el texto para que

aparezca un cursor. Coloque el cursor en la posicin deseada y escriba el texto adicional.


Cmo dar formato al texto
E Seleccione el marco que contiene el texto. No pulse dos veces en el texto.

174
Captulo 7
E Use la barra de herramientas de fuentes para dar formato al texto. Si la barra de herramientas

no est activada, asegrese de seleccionar slo el marco que contiene el texto. Si el texto est
seleccionado, se desactivar la barra de herramientas.
Figura 7-6
Barra de herramientas de fuentes

Puede cambiar distintas caractersticas de la fuente:

Color

Familia (por ejemplo, Arial o Verdana)

Tamao (la unidad es pt, a menos que se indique otra distinta, como pc)

Ponderacin

Alineacin relativa al marco del texto

El formato se aplica a todo el texto de un marco. No puede cambiar el formato de letras o palabras
individuales de ningn bloque de texto concreto.

Cambio de colores, tramas, estilos de guin y transparencia


Muchos elementos diferentes de una visualizacin tienen un relleno y un borde. El ejemplo ms
obvio es la barra de un grfico de barras. El color de las barras es el color de relleno. Tambin
pueden llevar un borde negro y continuo alrededor.
Hay otros elementos menos obvios en la visualizacin que tienen colores de relleno. Si el
color de relleno es transparente, es posible que no se vea que existe dicho relleno. Tomemos
como ejemplo el texto de una etiqueta de eje. Da la sensacin de que el texto es flotante,
pero en realidad aparece en un marco con color de relleno transparente. Puede ver el marco si
selecciona la etiqueta del eje.
Cualquier marco de la visualizacin puede tener un estilo de relleno y borde, incluyendo
el marco alrededor de toda la visualizacin. Adems, cualquier relleno tiene un nivel de
opacidad/transparencia asociado que puede ajustarse.
Para cambiar de colores, tramas, estilos de guin y transparencia
E Seleccione el elemento cuyo formato desea cambiar. Por ejemplo, seleccione las barras de un

grfico de barras o un marco que contenga texto. Si la visualizacin est dividida por un campo
o variable categrica, puede seleccionar tambin el grupo que corresponda a una categora
individual con el fin de cambiar el aspecto esttico asignado por defecto a dicho grupo. Por
ejemplo, puede cambiar el color de uno de los grupos de apilado de un grfico de barras apiladas.
E Use la barra de herramientas de colores para cambiar el color de relleno o del borde, o bien

la trama de relleno.
Figura 7-7
Barra de herramientas de colores

175
Visualizacin de grficos

Nota: esta barra de herramientas no muestra el estado de la seleccin actual.


Para cambiar un color o relleno, puede pulsar el botn para seleccionar la opcin mostrada o en la
flecha desplegable para seleccionar otra opcin. En el caso de los colores, observe que hay uno
representado como blanco y atravesado por una lnea diagonal roja. Se trata del color transparente.
Puede usarlo, por ejemplo, para ocultar los bordes de las barras de un histograma.

El primer botn controla el color de relleno.

El segundo botn controla el color del borde.

El tercer botn controla la trama de relleno. La trama de relleno utiliza el color del borde. Por
tanto, la trama de relleno slo se ve si el color del borde es visible.

El cuarto control es una barra deslizante y un cuadro de texto que controlan la opacidad
del color y el patrn de relleno. Si el porcentaje es menor, habr menor opacidad y ms
transparencia. 100% significa que es totalmente opaco (sin transparencia).

E Para cambiar el estilo de guin de un borde o una lnea, use la barra de herramientas de lneas.
Figura 7-8
Barra de herramientas de lneas

Nota: esta barra de herramientas no muestra el estado de la seleccin actual.


Al igual que con la otra barra de herramientas, puede pulsar en el botn para seleccionar la opcin
mostrada o en la flecha desplegable para seleccionar otra opcin.

Rotacin y cambio de la forma y la relacin de aspecto de los elementos de punto


Puede girar elementos de punto, asignar una forma predefinida diferente o cambiar la relacin de
aspecto (la relacin entre anchura y altura).
Cmo modificar elementos de punto
E Seleccione los elementos de punto. No puede girar ni cambiar la forma y relacin de aspecto

de elementos de punto individuales.


E Use la barra de herramientas de smbolos para modificar los puntos.

176
Captulo 7
Figura 7-9
Barra de herramientas de smbolos

El primer botn permite cambiar la forma de los puntos. Pulse en la flecha desplegable y
seleccione una forma predefinida.

Con el segundo botn puede girar los puntos hasta una posicin especfica como si lo hiciera
con un comps. Pulse en la flecha desplegable y, a continuacin, arrastre la punta hasta
la posicin deseada.

El tercero permite cambiar la relacin de aspecto. Pulse en la flecha desplegable y, a


continuacin, arrastre el rectngulo que aparece. La forma del rectngulo representa la
relacin de aspecto.

Cambio de tamao de los elementos grficos


Puede cambiar el tamao de los elementos grficos de la visualizacin. Estos incluyen barras,
lneas y puntos entre otros. Si el tamao del elemento grfico depende de una variable o un
campo, el tamao especificado es el mnimo.
Cmo cambiar el tamao de los elementos grficos
E Seleccione los elementos grficos cuyo tamao desea cambiar.
E Use el control deslizante o introduzca un tamao especfico para la opcin disponible en la barra

de herramientas de smbolos. La unidad es pxeles, a menos que se indique otra distinta (consulte
a continuacin la lista completa de abreviaturas de unidad). Tambin puede especificar un
porcentaje (como 30 %), lo que significa que un elemento grfico usa el porcentaje especificado
del espacio disponible. El espacio disponible depender del tipo de elemento grfico y la
visualizacin especfica.
Tabla 7-2
Abreviaturas de unidad vlidas

Abreviatura
cm
en
mm
pc
pt
px

Unidad
centmetro
pulgada
milmetro
pica
punto
pixel

Figura 7-10
Control del tamao en la barra de herramientas de smbolos

177
Visualizacin de grficos

Especificacin de mrgenes y relleno


Si hay demasiado espacio o un espacio insuficiente alrededor o dentro de un marco de la
visualizacin, puede cambiar este margen y los ajustes de relleno. El margen es la cantidad de
espacio existente entre el marco y otros elementos que lo rodean. El relleno es la cantidad de
espacio existente entre el borde del marco y el contenido de dicho marco.
Cmo especificar los mrgenes y el relleno
E Seleccione el marco cuyos mrgenes y relleno desea especificar. Puede tratarse de un marco de

texto, el marco que rodea a la leyenda o incluso el marco de datos que muestra los elementos
grficos (como barras y puntos).
E Use la pestaa Mrgenes de la paleta de propiedades para especificar la configuracin. Todos los

tamaos se expresan en pxeles, a menos que se indique una unidad distinta (como cm o pulg).
Figura 7-11
Pestaa Mrgenes

Formato de numeracin
Puede especificar el formato de los nmeros de las etiquetas sealizadoras en el eje continuo o
las etiquetas de valor de datos que muestran un nmero. Por ejemplo, puede especificar que los
nmeros que aparecen en las etiquetas de marcas se muestren en miles.
Para especificar formatos de numeracin
E Seleccione las etiquetas sealizadoras del eje continuo o las etiquetas de valor de datos si

contienen nmeros.
E Pulse en la pestaa Formato de la paleta Propiedades.
Figura 7-12
Pestaa Formato

E Seleccione las opciones de formato de numeracin que desee:

Prefijo. Carcter que se mostrar al comienzo del nmero. Introduzca, por ejemplo, un signo de
dlar ($) si los nmeros se refieren a salarios en dlares estadounidenses.
Sufijo. Carcter que se mostrar al final del nmero. Introduzca, por ejemplo, un signo de
porcentaje (%) si los nmeros equivalen a porcentajes.

178
Captulo 7

Dgitos de entero mnimo. Nmero mnimo de dgitos que mostrar en la parte entera de una
representacin decimal. Si el valor real no contiene el nmero mnimo de dgitos, la parte entera
del valor se rellenar con ceros.
Dgitos de entero mximo. Nmero mximo de dgitos que mostrar en la parte entera de una

representacin decimal. Si el valor real supera el nmero mximo de dgitos, la parte entera
del valor se rellenar con asteriscos.
Dgitos de decimal mnimo. Nmero mnimo de dgitos que mostrar en la parte decimal de una

representacin decimal o cientfica. Si el valor real no contiene el nmero mnimo de dgitos, la


parte decimal del valor se rellenar con ceros.
Dgitos de decimal mximo. Nmero mximo de dgitos que mostrar en la parte decimal de una

representacin decimal o cientfica. Si el valor real supera el nmero mnimo de dgitos, la parte
decimal se redondear al nmero adecuado de dgitos.
Cientfica. Determina si se muestran o no los nmeros en notacin cientfica. La notacin

cientfica resulta til para nmeros muy grandes o muy pequeos. -auto- permite a la aplicacin
determinar cundo es adecuado utilizar la notacin cientfica.
Escalamiento. Un factor de escala, que es un nmero por el que se divide el valor original.
Utilice un factor de escala si los nmeros son grandes, pero no desea que la etiqueta se extienda
demasiado para adaptarse al nmero. Si cambia el formato de numeracin de las etiquetas
sealizadoras, asegrese de editar el ttulo del eje para indicar cmo se debe interpretar el nmero.
Supongamos, por ejemplo, que el eje de escala muestra salarios y las etiquetas son 30.000, 50.000
y 70.000. Puede introducir un factor de escala de 1000 para mostrar 30, 50 y 70. A continuacin,
debe editar el ttulo del eje para incluir el texto en miles.
Parntesis -ve. Indica si deben incluirse parntesis alrededor de los valores negativos.
Agrupacin. Indica si se debe mostrar un carcter entre grupos de dgitos. La configuracin

regional actual de su equipo determinar qu carcter se utiliza para la agrupacin de dgitos.

Cambio de la configuracin del eje y la escala


Existen varias opciones para modificar ejes y escalas.
Cmo cambiar la configuracin del eje y la escala
E Seleccione cualquier parte del eje (por ejemplo, la etiqueta del eje o las etiquetas de marca).
E Use las pestaas Escalas, Marca mayor y Marcas menores de la paleta de propiedades para

cambiar la configuracin del eje y la escala.


Figura 7-13
Paleta de propiedades

179
Visualizacin de grficos

Pestaa Escalas
Tipo. Especifica si la escala es lineal o transformada. Las transformaciones de escala permiten

comprender los datos o realizar los supuestos necesarios para la inferencia estadstica. En los
diagramas de dispersin, puede utilizar una escala transformada si la relacin entre las variables o
los campos independientes y dependientes es no lineal. Las transformaciones de escala tambin
se pueden utilizar para lograr que un histograma asimtrico sea ms simtrico y se parezca a
una distribucin normal. Tenga en cuenta que slo se transforma la escala en que se muestran
los datos; los datos reales no se transforman.

Lineal. Especifica una escala lineal sin transformar.

Log. Especifica una escala transformada de logaritmo en base 10. Para adaptarse a los valores

cero y negativos, esta transformacin usa una versin modificada de la funcin logartmica.
Esta funcin de registro seguro se define como sign(x) * log(1 + abs(x)). De modo que
safeLog(-99) es igual a:
sign(-99) * log(1 + abs(-99)) = -1 * log(1 + 99) = -1 * 2 = -2

Potencia. Especifica una escala transformada de potencia con un exponente de 0,5. Para

adaptarse a los valores negativos, esta transformacin usa una versin modificada de la
funcin exponencial. Esta funcin de potencia segura se define como sign(x) * pow(abs(x),
0.5). De modo que safePower(-100) es igual a:
sign(-100) * pow(abs(-100), 0.5) = -1* pow(100, 0.5) = -1 * 10 = -10
Mn/Mx/Bajo redondeado/Alto redondeado. Especifica el rango de la escala. Si selecciona Bajo
redondeado y Alto redondeado, la aplicacin podr seleccionar una escala apropiada de acuerdo

con los datos. Los valores mnimo y mximo estn redondeados porque suelen ser valores enteros
mayores o menores que los valores de datos mximos y mnimos. Por ejemplo, si los datos oscilan
entre 4 y 92, los valores alto y bajo redondeados para la escala pueden estar comprendidos entre 0
y 100 en lugar de los valores mnimo y mximo reales de los datos. Preste atencin para no definir
un rango demasiado pequeo que oculte elementos importantes. Tenga en cuenta tambin que no
puede definir un valor mnimo y mximo explcito si est seleccionada la opcin Incluir cero.
Margen bajo/Margen alto. Crea mrgenes en los extremos inferior y/o superior del eje. El margen

aparece en posicin perpendicular con respecto al eje seleccionado. La unidad es pxeles, a


menos que se indique otra distinta (como cm o pulg). Por ejemplo, si define Margen alto en
5 para el eje vertical, se extender un margen horizontal de 5 px a lo largo de la parte superior
del marco de datos.
Inversa. Especifica si la escala est invertida.
Incluir cero. Indica que la escala debe incluir el valor 0. Esta opcin suele utilizarse en grficos de
barras para asegurarse de que las barras empiezan en el 0, y no en un valor cercano a la altura de la
barra ms pequea. Si se selecciona esta opcin, Mn y Mx se desactivan ya que no se pueden
definir los valores mnimo y mximo del rango de la escala.
Pestaas Marca mayor/Marcas menores

Las marcas o marcas de comprobacin son lneas que aparecen sobre un eje. Indican valores
en intervalos o categoras especficos. Las marcas mayores son marcas de comprobacin con
etiquetas. Son tambin ms largas que las otras marcas de comprobacin. Las marcas menores

180
Captulo 7

son marcas de comprobacin que aparecen entre las marcas de comprobacin mayores. Algunas
opciones son especficas del tipo de marca, pero la mayora de las opciones estn disponibles para
marcas mayores y menores.
Mostrar marcas. Especifica si aparecen marcas mayores o menores en el grfico.
Mostrar cuadrculas. Especifica si las cuadrculas aparecen en las marcas mayores o menores. Las

cuadrculas son lneas que atraviesan todo el grfico de eje a eje.


Posicin. Especifica la posicin de las marcas de comprobacin en relacin con el eje.
Longitud. Especifica la longitud de las marcas de comprobacin. La unidad es pxeles, a menos
que se indique otra distinta (como cm o pulg).
Base. Slo se aplica a las marcas mayores. Especifica el valor en el que aparece la primera
marca mayor.
Delta. Slo se aplica a las marcas mayores. Especifica la diferencia entre marcas mayores. Esto
es, las marcas mayores aparecern cada n valores, donde n es el valor delta.
Divisiones. Slo se aplica a las marcas menores. Especifica el nmero de divisiones de marcas

menores existentes entre las marcas mayores. El nmero de marcas menores es igual al nmero de
divisiones menos uno. Por ejemplo, supongamos que hay marcas mayores en 0 y 100. Si introduce
2 como nmero de divisiones de marcas menores, habr una marca menor en 50, dividiendo el
intervalo de 0 a 100, lo que crear dos divisiones.

Edicin de categoras
Puede editar las categoras en un eje categrico de varias formas:

Cambie el orden de clasificacin para mostrar las categoras.

Excluya categoras especficas.

Aada una categora que no aparezca en el conjunto de datos.

Contraiga/combine categoras pequeas en una categora.

Cmo cambiar el orden de clasificacin de categoras


E Seleccione un eje categrico. La paleta Categoras muestra las categoras en el eje.

Nota: Si la paleta no est visible, asegrese de haberla activado.


E En la paleta Categoras, seleccione una opcin de ordenacin de la lista desplegable.

Personalizado. Ordena las categoras basndose en el orden en el que aparecen en la paleta.

Utilice los botones de flecha para mover categoras a la parte superior de la lista, arriba, abajo y a
la parte inferior de la lista.
Datos. Ordena las categoras basndose en el orden en el que aparecen en el conjunto de datos.
Nombre. Ordena las categoras alfabticamente, utilizando los nombres como aparecen en la paleta.

181
Visualizacin de grficos

Valor. Ordena las categoras segn el valor de datos subyacente, utilizando los valores que

aparecen entre parntesis en la paleta. Slo los orgenes de datos con metadatos (como los
archivos de datos de IBM SPSS Statistics) admiten esta opcin.
Estadstico. Ordena las categoras basndose en el estadstico calculado para cada categora.
Algunos ejemplos de estadsticos son recuentos, porcentajes y medias. Esta opcin slo est
disponible si se utiliza un estadstico en el grfico.
Para aadir una categora

Por defecto, nicamente las categoras que aparecen en el conjunto de datos estn disponibles.
Puede aadir una categora a la vista si fuera necesario.
E Seleccione un eje categrico. La paleta Categoras muestra las categoras en el eje.

Nota: Si la paleta no est visible, asegrese de haberla activado.


E En la paleta de categoras, pulse en el botn Aadir categora:
Figura 7-14
Botn Aadir categora

E En el cuadro de dilogo Aadir una nueva categora, introduzca un nombre para la categora.
E Pulse en Aceptar.

Cmo excluir categoras especficas


E Seleccione un eje categrico. La paleta Categoras muestra las categoras en el eje.

Nota: Si la paleta no est visible, asegrese de haberla activado.


E En la paleta Categoras, seleccione un nombre de categora en la lista Incluir y, a continuacin,

pulse en el botn X. Para mover la categora hacia atrs, seleccione su nombre en la lista Excluido
y, a continuacin, pulse en la flecha situada a la derecha de la lista.
Cmo contraer/combinar categoras pequeas

Puede combinar categoras que sean tan pequeas que no necesite mostrarlas por separado. Por
ejemplo, si tiene un grfico de sectores con muchas categoras, considere la opcin de contraer
categoras con un porcentaje inferior a 10. Slo se pueden contraer las estadsticas aditivas. Por
ejemplo, no puede aadir medias porque las medias no son aditivas. Por lo tanto, no se pueden
combinar/contraer categoras utilizando una media.
E Seleccione un eje categrico. La paleta Categoras muestra las categoras en el eje.

Nota: Si la paleta no est visible, asegrese de haberla activado.


E En la paleta Categoras, seleccione Contraer y especifique un porcentaje. Cualquier categora

cuyo porcentaje del total sea inferior al nmero especificado se combinar en una categora. El

182
Captulo 7

porcentaje se basa en el estadstico mostrado en el grfico. La contraccin slo est disponible


para estadsticos basados en recuentos y de suma.

Cambio de la orientacin de paneles


Si utiliza paneles en su visualizacin, puede cambiar su orientacin.
Cmo cambiar la orientacin de los paneles
E Seleccione cualquier parte de la visualizacin.
E Pulse en la pestaa Paneles de la paleta Propiedades.
Figura 7-15
Pestaa Paneles

E Seleccione una opcin en Diseo:

Tabla. Organiza los paneles como una tabla, de manera que hay una fila o columna asignada a

cada valor individual.


Transpuesto. Organiza los paneles como una tabla, aunque tambin intercambia las filas y

columnas originales. Esta opcin no equivale a transponer el grfico en s. Observe que los ejes
x e y no cambian al seleccionar esta opcin.
Lista. Organiza los paneles como una lista, de manera que cada casilla representa una combinacin
de valores. Las columnas y filas ya no estarn asignadas a valores individuales. Esta opcin
permite que los paneles se ajusten si es necesario.

Transformacin del sistema de coordenadas


Muchas visualizaciones se muestran en un sistema de coordenadas plano y rectangular. Puede
transformar el sistema de coordenadas segn sea necesario. Por ejemplo puede aplicar una
transformacin polar al sistema de coordenadas, aadir efectos de sombra en sentido oblicuo
y transponer los ejes. Tambin puede deshacer cualquiera de estas transformaciones si ya se
aplicaron a la visualizacin actual. Por ejemplo, se dibuja un grfico de sectores en un sistema de
coordenadas polares. Si lo desea, puede deshacer la transformacin polar y mostrar el grfico de
sectores como una nica barra apilada en un sistema de coordenadas rectangular.
Para transformar el sistema de coordenadas
E Seleccione el sistema de coordenadas que desee transformar. El sistema de coordenadas se

selecciona eligiendo el marco que ronde el grfico individual.


E Pulse en la pestaa Coordenadas de la paleta Propiedades.

183
Visualizacin de grficos
Figura 7-16
Pestaa Coordenadas

E Seleccione las transformaciones que desee aplicar al sistema de coordenadas. Tambin puede

cancelar la seleccin de una transformacin para deshacerla.


Transpuesto. El cambio de orientacin de los ejes se denomina transposicin. Es como

intercambiar los ejes vertical y horizontal en una visualizacin 2-D.


Polar. Una transformacin polar dibuja los elementos grficos con un ngulo y una distancia

especficos desde el centro del grfico. Un grfico de sectores es una visualizacin de una
dimensin con una transformacin polar que dibuja las barras individuales con ngulos
especficos. Un grfico radial es una visualizacin 2-D con una transformacin polar que
dibuja elementos grficos con ngulos y distancias especficos desde el centro del grfico. Una
visualizacin 3-D tambin incluye una dimensin de profundidad adicional.
Oblicuo. Una transformacin oblicua aade un efecto 3-D a los elementos grficos. Esta

transformacin aade profundidad a los elementos grficos, pero su profundidad es meramente


decorativa. No se ve influenciado por valores de datos concretos.
Misma proporcin. Si se aplica la misma proporcin se especifica que la misma distancia en cada
escala represente la misma diferencia de valores de datos. Por ejemplo, 2 cm en ambas escalas
representan una diferencia de 1000.
% del recuadro antes de transformacin. Si tras la transformacin se recortan los ejes, puede que

desee aadir recuadros al grfico antes de aplicar la transformacin. Los recuadros reducen las
dimensiones en un porcentaje antes de aplicar transformaciones al sistema de coordenadas. Tiene
control sobre las dimensiones x inferior, x superior, y inferior e y superior, en ese orden.
% del recuadro tras la transformacin. Si desea cambiar la relacin de aspecto de un grfico,

puede aadirle recuadros tras aplicar transformacin. Los recuadros reducen las dimensiones en
un porcentaje despus de aplicar transformaciones al sistema de coordenadas. Estos recuadros
tambin pueden aplicarse aunque no se haya realizado ninguna transformacin en el grfico. Tiene
control sobre las dimensiones x inferior, x superior, y inferior e y superior, en ese orden.

Cambio de estadsticos y elementos grficos


Puede convertir un en otro tipo, cambiar el estadstico utilizado para dibujar el elemento grfico o
especificar el modificar de colisin que determina lo que ocurre cuando los elementos grficos
se solapan.
Para convertir un elemento grfico
E Seleccione el elemento grfico que desee convertir.
E Pulse en la pestaa Elemento de la paleta Propiedades.

184
Captulo 7
Figura 7-17
Pestaa Elemento.

E Seleccione un nuevo tipo de elemento grfico en la lista Tipo.

Tipo de elemento grfico


Punto
Intervalo
Lnea
Ruta de acceso
rea
Polgono
Esquema

Descripcin
Un marcador que especifica un punto de datos concreto. Un elemento
de punto se utiliza en grficos de dispersin y en otras visualizaciones
relacionadas.
Una forma rectangular dibujada en un valor de datos especficos y que
rellena el espacio entre un origen y otro valor de datos. Un elemento
de intervalo se utiliza en grficos de barras e histogramas.
Una lnea que conecta valores de datos.
Una lnea que conecta valores de datos en el orden en que aparecen
en el conjunto de datos.
Una lnea que conecta elementos de datos en el rea entre la lnea y
un origen rellenado.
Una forma de varias caras que encierra una regin de datos. Se
puede usar un elemento poligonal en un diagrama de dispersin en
intervalos o un mapa.
Un elemento que consiste en una caja con bigotes y marcadores que
indican valores atpicos. Un elemento de esquema se utiliza para
diagramas de caja.

Para cambiar el estadstico


E Seleccione el elemento grfico cuyo estadstico desee cambiar.
E Pulse en la pestaa Elemento de la paleta Propiedades.
E En la lista desplegable Resumen, seleccione un nuevo estadstico. Tenga en cuenta que al

seleccionar un estadstico se agregan los datos. Si en su lugar desea que la visualizacin muestra
datos sin agregar, seleccione (sin estadstico) en la lista Resumen.
Estadsticos de resumen calculados a partir de un campo continuo

Media. Una medida de tendencia central. El promedio aritmtico, la suma dividida por

el nmero de casos.

Mediana. Es el valor por encima y por debajo del cual se encuentran la mitad de los casos,

el percentil 50. Si hay un nmero par de casos, la mediana es la media de los dos valores
centrales, cuando los casos se ordenan en orden ascendente o descendente. La mediana es una
medida de tendencia central que no es sensible a los valores atpicos (a diferencia de la media,
que puede resultar afectada por unos pocos valores extremadamente altos o bajos).

Modo. El valor que ocurre con mayor frecuencia. Si varios valores comparten la mayor

frecuencia de aparicin, cada uno de ellos es un modo.

Mnimo. Valor ms pequeo de una variable numrica.

185
Visualizacin de grficos

Mximo. El mayor valor de una variable numrica.

Rango. Diferencia entre los valores mnimos y mximos.

Medio intervalo. El punto medio del intervalo, es decir, el valor cuya diferencia con el mnimo

es el mismo que el de su diferencia con el mximo.

Suma. Suma o total de todos los valores, a lo largo de todos los casos que no tengan valores

perdidos.

Suma acumulada. La suma acumulada de los valores. Cada elemento grfico muestra la suma

de un subgrupo ms la suma total de todos los grupos anteriores.

Suma porcentual. El porcentaje de cada subgrupo basado en un campo sumado comparado

con la suma de todos los grupos.

Suma porcentual acumulada. El porcentaje acumulado de cada subgrupo basado en un campo

sumado comparado con la suma de todos los grupos. Cada elemento grfico muestra el
porcentaje de un subgrupo ms el porcentaje total de todos los grupos anteriores.

Variacin. Es una medida de dispersin en torno a la media, igual a la suma de las desviaciones

al cuadrado respecto a la media, dividida por el nmero de casos menos 1. La varianza se


mide en unidades que son el cuadrado de las de la variable en cuestin.

Desviacin tpica. Es una medida de la dispersin en torno a la media. En una distribucin

normal, el 68% de los casos se encuentra dentro de una desviacin tpica de la media y el
95% queda entre dos desviaciones tpicas. Por ejemplo, si la edad media es de 45 aos, con
una desviacin tpica de 10, el 95% de los casos estara entre los 25 y 65 en una distribucin
normal.

Error tpico. Medida de cunto puede variar el valor de un estadstico de contraste de muestra

en muestra. Es la desviacin tpica de la distribucin muestral de un estadstico. Por ejemplo,


el error tpico de la media es la desviacin tpica de las medias muestrales.

Curtosis. Medida del grado en que las observaciones estn agrupadas en torno al punto central.

Para una distribucin normal, el valor del estadstico de curtosis es 0. Una curtosis positiva
indica que, con respecto a una distribucin normal, las observaciones se concentran ms en
el centro de la distribucin y presentan colas ms estrechas hasta los valores extremos de la
distribucin, en cuyo punto las colas de la distribucin leptocrtica son ms gruesas con
respecto a una distribucin normal. Una curtosis negativa indica que, con respecto a una
distribucin normal, las observaciones se concentran menos y presentan colas ms gruesas
hasta los valores extremos de la distribucin, en cuyo punto las colas de la distribucin
platicrtica son ms estrechas con respecto a una distribucin normal.

Asimetra. Medida de la asimetra de una distribucin La distribucin normal es simtrica

y tiene un valor de asimetra igual a 0. Una distribucin que tenga una asimetra positiva
significativa tiene una cola derecha larga. Una distribucin que tenga una asimetra negativa
significativa tiene una cola izquierda larga. Como regla aproximada, un valor de la asimetra
mayor que el doble de su error tpico se asume que indica una desviacin de la simetra.
Las siguientes estadsticas de regin pueden dar como resultado ms de un elemento grfico por
subgrupo. Cuando se utiliza el elemento grfico de intervalo, rea o borde, las estadsticas de
regin dan como resultado un elemento grfico que muestra el rango. El resto de los elementos
grficos dan como resultado dos elementos independientes, uno muestra el principio del rango
y el otro el final del rango.

186
Captulo 7

Regin: Rango. El rango de valores entre los valores mnimos y mximos.

Regin: 95% de intervalo de confianza de la media. Un rango de valores que el 95% de las

veces incluye la media prevista.

Regin: 95% de intervalo de confianza de individual. Rango de valores que el 95% de las veces

incluye el valor previsto segn el caso individual.

Regin: 1 desviacin estndar por encima/debajo de la media. Rango de valores entre 1

desviacin tpica por encima y por debajo de la media.

Regin: 1 error estndar por encima/debajo de la media. Rango de valores entre 1 error tpico

por encima y por debajo de la media.


Estadsticos de resumen basados en recuentos

Contar apariciones. El nmero de filas/casos.

Recuento acumulado. El nmero acumulado de filas/casos. Cada elemento grfico muestra el

recuento de un subgrupo ms la suma total de todos los grupos anteriores.

Porcentaje de recuento. El porcentaje de filas/casos de cada subgrupo comparado con el

nmero total de filas/casos.

Porcentaje acumulado de recuento. El porcentaje acumulado de filas/casos de cada subgrupo

comparado con el nmero total de filas/casos. Cada elemento grfico muestra el porcentaje de
un subgrupo ms el porcentaje total de todos los grupos anteriores.
Para especificar el modificador de colisin

El modificador de colisin determina lo que ocurre cuando los elementos grficos se superponen.
E Seleccione el elemento grfico cuyo modificador de colisin desee especificar.
E Pulse en la pestaa Elemento de la paleta Propiedades.
E En la lista desplegable Modificador, seleccione un modificador de colisin. -auto- permite a la

aplicacin determinar qu modificador de colisin es adecuado para el tipo de elemento grfico y


estadstico.
Superpuesto. Dibuje elementos grficos encima de otros si tienen el mismo valor.
Pila. Elementos grficos de pila que normalmente se superpondran al tener los mismos valores

de datos.
Esquivar. Mueve los elementos grficos junto a otros elementos grficos que aparecen con el

mismo valor, en vez de superponerlos. Los elementos grficos se ordenan simtricamente. Es


decir, los elementos grficos se trasladan a lados opuestos de una posicin central. Esquivar
es similar a conglomerar.
Pila. Mueve los elementos grficos junto a otros elementos grficos que aparecen con el mismo

valor, en vez de superponerlos. Los elementos grficos se ordenan asimtricamente. Es decir,


los elementos grficos se apilan unos sobre otros, con el elemento grfico ms bajo colocado
en un valor especfico de la escala.
Perturbar (normal). Recoloca los elementos grficos en el mismo valor de datos aleatoriamente

utilizando la distribucin normal.

187
Visualizacin de grficos

Perturbar (uniforme). Recoloca los elementos grficos en el mismo valor de datos aleatoriamente

utilizando la distribucin uniforme.

Cambio de la posicin de la leyenda


Si un grfico incluye una leyenda, sta suele mostrarse a la derecha de un grfico. Si lo desea,
puede cambiar esta posicin.
Cmo cambiar la posicin de la leyenda
E Seleccione la leyenda.
E Pulse en la pestaa Leyenda de la paleta Propiedades.
Figura 7-18
Pestaa Leyenda

E Seleccione una posicin.

Copia de una visualizacin y de datos de visualizacin


La paleta General incluye botones para copiar la visualizacin y sus datos.
Figura 7-19
Botn Copiar visualizacin

Copia de visualizacin Esta accin copia la visualizacin en el portapapeles como una imagen.

Hay mltiples formatos de imagen disponibles. Cuando pegue la imagen en otra aplicacin,
puede seleccionar una opcin de pegado especial para seleccionar uno de los formatos de imagen
disponibles para pegar.
Figura 7-20
Botn Copiar datos de visualizacin

Copia de los datos de visualizacin. Esta accin copia los datos subyacentes utilizados para dibujar

la visualizacin. Los datos se copian en el portapapeles como texto normal o como texto con
formato HTML. Cuando pegue los datos en otra aplicacin, puede seleccionar una opcin de
pegado especial para seleccionar uno de los formatos disponibles para pegar.

188
Captulo 7

Mtodos abreviados de teclado


Tabla 7-3
Mtodos abreviados de teclado

Tecla de mtodo
abreviado
Ctrl + Espacio
Supr
Ctrl + Z
Ctrl + Y
F2

Funcin
Cambiar entre el modo de exploracin y edicin
Eliminar un elemento de visualizacin
Deshacer
Rehacer la ltima accin
Mostrar esquema para seleccionar los elementos del
grfico

Parte III:
Editor de recursos

Captulo

Plantillas y recursos

IBM SPSS Text Analytics for Surveys captura rpidamente y con precisin y extrae los
conceptos clave de los datos de texto. Este proceso de extraccin se basa mayoritariamente en los
recursos lingsticos para determinar de qu forma se extrae la informacin de los datos de texto.
Si desea obtener ms informacin, consulte el tema Cmo funciona la extraccin en el captulo 1
el p. 3. Puede ajustar estos recursos en la vista Editor de recursos.
Cuando se instala el software, tambin se obtiene un conjunto de recursos especializados. Estos
recursos incluidos permiten que se beneficie de muchos aos de investigacin y ajustes para
idiomas especficos y aplicaciones especficas. Puesto que no siempre los recursos incluidos
se adaptan a la perfeccin al contexto de sus datos, puede editar estas plantillas de recursos o
incluso crear y utilizar bibliotecas personalizadas exclusivamente adaptadas a los datos de su
organizacin. Estos recursos se encuentran en varios formatos y puede utilizarlos en su proyecto.
Los recursos pueden encontrarse en los siguientes lugares:

Plantilla de recursos. Las plantillas se componen de un conjunto de bibliotecas, tipos y


algunos recursos avanzados que juntos conforman un conjunto especializado de recursos que
se adapta a un dominio o contexto particular, como las opiniones sobre productos.

Paquetes de anlisis de texto (TAP). Adems de los recursos almacenados en una plantilla,
los TAP unen adems uno o ms conjuntos de categoras especializados que se han generado
utilizando esos recursos, de modo que tanto las categoras como los recursos se almacenan
y reutilizan conjuntamente. Si desea obtener ms informacin, consulte el tema Uso de los
paquetes de anlisis de texto en el captulo 3 el p. 41.

Bibliotecas. Las bibliotecas se utilizan como los cimientos sobre los que se basan tanto los
TAP como las plantillas. Tambin pueden aadirse individualmente a los recursos de su
proyecto. Cada biblioteca est compuesta por varios diccionarios que se utilizan para definir
y administrar listas de tipos, sinnimos y exclusiones. Aunque las bibliotecas tambin se
entregan individualmente, se empaquetan juntas en plantillas y en los TAP. Si desea obtener
ms informacin, consulte el tema Trabajo con bibliotecas en el captulo 9 el p. 202.

Nota: Durante la extraccin, tambin se utilizan algunos recursos internos compilados. Estos
recursos compilados contienen un gran nmero de definiciones que complementan a los tipos de
la biblioteca Core. Estos recursos compilados no se pueden editar.
El Editor de recursos ofrece acceso al conjunto de recursos que se utilizan para generar los
resultados de la extraccin (conceptos, tipos y patrones). Existe una serie de tareas que puede
realizar en el Editor de recursos, e incluyen:

Trabajar con bibliotecas. Si desea obtener ms informacin, consulte el tema Trabajo con

bibliotecas en el captulo 9 el p. 202.

Crear diccionarios de tipo. Si desea obtener ms informacin, consulte el tema Creacin de

tipos en el captulo 10 el p. 217.

Aadir trminos a los diccionarios. Si desea obtener ms informacin, consulte el tema Adicin

de trminos en el captulo 10 el p. 219.


Copyright IBM Corporation 2004, 2011.

190

191
Plantillas y recursos

Crear sinnimos. Si desea obtener ms informacin, consulte el tema Definicin de sinnimos

en el captulo 10 el p. 227.

Actualizar los recursos en los TAP. Si desea obtener ms informacin, consulte el tema

Actualizacin de los paquetes de anlisis de texto en el captulo 3 el p. 43.

Crear plantillas. Si desea obtener ms informacin, consulte el tema Creacin y actualizacin

de plantillas el p. 193.

Importar y exportar plantillas. Si desea obtener ms informacin, consulte el tema Importacin

y exportacin de plantillas el p. 196.

Publicar bibliotecas. Si desea obtener ms informacin, consulte el tema Publicacin de

bibliotecas en el captulo 9 el p. 211.

La interfaz del editor


Las operaciones que realiza en el Editor de recursos se concentran en torno a la administracin
y ajuste de los recursos lingsticos. Estos recursos se almacenan en forma de plantillas y
bibliotecas. Si desea obtener ms informacin, consulte el tema Diccionarios de tipo en el
captulo 10 el p. 215.
Pestaa Recursos de la biblioteca
Figura 8-1

192
Captulo 8

La interfaz est organizada en cuatro partes:


1. Panel del rbol de bibliotecas. Situada en el ngulo superior izquierdo, este plan muestra un
rbol con las bibliotecas. Puede activar y desactivar las bibliotecas de este rbol y filtrar las vistas
en los otros paneles seleccionando una biblioteca del rbol. Puede realizar muchas operaciones en
este rbol utilizando los mens contextuales. Si expande una biblioteca en el rbol, podr ver el
conjunto de tipos que contiene. Tambin puede filtrar esta lista a travs del men Ver si desea
centrarse nicamente en una biblioteca determinada.
2. Listas de trminos del panel Diccionarios de tipo. Situado a la derecha del rbol de bibliotecas,
este panel muestra las listas de trminos de los diccionarios de tipo de las bibliotecas seleccionadas
en el rbol. Un diccionario de tipo es una recopilacin de trminos que se agrupan bajo una
misma etiqueta, tipo o nombre. Cuando el motor de extraccin lee los datos de texto, compara las
palabras que encuentra en el texto con los trminos definidos en los diccionarios de tipo. Si un
concepto extrado aparece como trmino en un diccionario de tipo, se asignar ese nombre de
tipo. Puede considerar que el diccionario de tipo es un diccionario especfico de trminos que
tienen algo en comn. Por ejemplo, el tipo <Location> de la biblioteca Core contiene conceptos
como nueva orleans, gran bretaa y nueva york. Todos estos trminos representan
ubicaciones geogrficas. Una biblioteca puede contener uno o ms diccionarios de tipo. Si desea
obtener ms informacin, consulte el tema Diccionarios de tipo en el captulo 10 el p. 215.
3. Panel del diccionario de exclusin. Situado en el lado derecho, este panel muestra la coleccin
de trminos que se excluirn de los resultados de extraccin finales. Los trminos que aparecen
en este diccionario de exclusin no aparecen en el panel Resultados extrados. Los trminos
excluidos pueden almacenarse en la biblioteca que usted elija. Sin embargo, el panel Diccionario
de exclusin muestra todos los trminos extrados de todas las bibliotecas visibles en el rbol de
bibliotecas.Si desea obtener ms informacin, consulte el tema Diccionarios de exclusin en el
captulo 10 el p. 231.
4. Panel del diccionario de sustitucin. Situado en la parte inferior izquierda, este panel muestra
los sinnimos y los elementos opcionales, cada uno en su propia pestaa. Los sinnimos y los
elementos opcionales ayudan a agrupar trminos similares bajo un concepto principal u objetivo
en los resultados de extraccin finales. Este diccionario puede contener sinnimos conocidos y
sinnimos definidos por el usuario y elementos, as como los errores ortogrficos ms comunes
emparejados con la ortografa correcta. Las definiciones de sinnimos y los elementos opcionales
pueden almacenarse en la biblioteca que elija. Sin embargo, el panel del diccionario de sustitucin
muestra todos los contenidos de todas las bibliotecas visibles en el rbol de bibliotecas. Mientas
que este panel muestra todos los sinnimos o elementos opcionales de todas las bibliotecas,
las sustituciones para todas las bibliotecas del rbol se muestran conjuntamente en este panel.
Una biblioteca puede contener tan solo un diccionario de sustitucin. Si desea obtener ms
informacin, consulte el tema Diccionarios de sustitucin/sinnimos en el captulo 10 el p. 225.

Notas:

Si desea filtrar esta ventana de manera que solo se vea la informacin que pertenece a una
nica biblioteca, puede cambiar la vista de la biblioteca mediante la lista desplegable de la
barra de herramientas. Contiene una entrada de nivel superior llamada Todas las bibliotecas
as como una entrada adicional para cada biblioteca individual. Si desea obtener ms
informacin, consulte el tema Visin de bibliotecas en el captulo 9 el p. 206.

193
Plantillas y recursos

Pestaa Recursos avanzados

Los recursos avanzados estn disponibles en la segunda pestaa de la vista del editor. Puede
revistar y editar los recursos avanzados en esta pestaa. Si desea obtener ms informacin,
consulte el tema Acerca de los recursos avanzados en el captulo 11 el p. 233.
Figura 8-2
Recursos avanzados

Creacin y actualizacin de plantillas


Cuando se realizan cambios en los recursos y prev que los utilizar en otro momento, puede
guardar los recursos en forma de plantilla. Al hacerlo, puede optar por guardar utilizando un
nombre de plantilla existente o asignando un nombre nuevo. Ms adelante, cuando quiera cargar
esta plantilla, podr disponer de los mismos resultados.
Nota: tambin puede publicar y compartir las bibliotecas. Si desea obtener ms informacin,
consulte el tema Compartimiento de bibliotecas en el captulo 9 el p. 210.

194
Captulo 8
Figura 8-3
Cuadro de dilogo Crear plantilla de recursos

Para crear (o actualizar) una plantilla


E En los mens de la vista del Editor de recursos, elija Recursos > Crear plantilla de recursos.

Aparecer el cuadro de dilogo Crear plantilla de recursos.


E Escriba un nombre nuevo en el campo Nombre de plantilla si desea crear una plantilla nueva.

Seleccione una plantilla de la tabla si desea sobrescribir una plantilla existente con los recursos
actualmente cargados.
E Pulse en Guardar para crear la plantilla.

Cambio de plantillas de recursos


Si desea sustituir los recursos actualmente cargados por una copia de los recursos de otra plantilla,
puede cambiar a esos otros recursos. Al hacerlo se sobrescribirn los recursos actualmente
cargados.
Puede seleccionar la plantilla cuyo contenido desea copiar en el Editor de recursos y pulsar en
Aceptar. As se sustituyen los recursos que tiene en este proyecto.

195
Plantillas y recursos
Figura 8-4
Cuadro de dilogo Cambiar de recursos

Para cambiar de recursos


E En los mens de la vista del Editor de recursos, elija Recursos > Cambiar de plantillas de recursos.

Aparecer el cuadro de dilogo Cambiar de plantillas de recursos.


E Seleccione la plantilla que desea utilizar entre las que aparecen en la tabla.
E Pulse en Aceptar para salir de los recursos actualmente cargados y cargar una copia de los

recursos de la plantilla seleccionada. Si ha realizado cambios en los recursos y desea guardar


las bibliotecas para su uso futuro, puede publicarlas, actualizarlas y compartirlas antes realizar
el cambio. Si desea obtener ms informacin, consulte el tema Compartimiento de bibliotecas
en el captulo 9 el p. 210.

Administracin de plantillas
Existen tambin algunas tareas bsicas de administracin que puede realizar de vez en cuando en
las plantillas, como cambiarles el nombre, importar y exportar plantillas o eliminar las que hayan
quedado obsoletas. Estas tareas se realizan en el cuadro de dilogo Administrar plantillas. La
importacin y exportacin de plantillas permite compartir plantillas con otros usuarios. Si desea
obtener ms informacin, consulte el tema Importacin y exportacin de plantillas el p. 196.
Nota: No puede cambiar el nombre ni eliminar las plantillas que estn instaladas (o se envan)
con el producto. En su lugar, si desea cambiarles el nombre, abra la plantilla instalada y cree una
nueva con el nombre que desee. Puede eliminar las plantillas personalizadas, pero si intenta
eliminar una de las plantillas incorporadas, se restaurar a la versin originalmente instalada.

196
Captulo 8
Figura 8-5
Cuadro de dilogo Administrar plantillas

Para cambiar el nombre de una plantilla


E En los mens elija Recursos > Administrar plantillas de recursos. Aparecer el cuadro de dilogo

Administrar plantillas.
E Seleccione la plantilla a la que desea cambiar el nombre y pulse en Cambiar nombre. El cuadro de

nombre pasar a ser un campo editable en la tabla.


E Teclee un nombre nuevo y pulse la tecla Intro. Se abrir un cuadro de dilogo de confirmacin.
E Si est conforme con el cambio de nombre, pulse en S. De lo contrario, pulse en No.

Para eliminar una plantilla


E En los mens elija Recursos > Administrar plantillas de recursos. Aparecer el cuadro de dilogo

Administrar plantillas.
E En el cuadro de dilogo Administrar plantillas, seleccione la plantilla que desea eliminar.
E Pulse en Eliminar. Se abrir un cuadro de dilogo de confirmacin.
E Pulse en S para eliminar o en No para cancelar la solicitud. Si pulsa en S, la plantilla se elimina.

Importacin y exportacin de plantillas


Puede compartir plantillas con otros usuarios u otras mquinas importndolas y exportndolas.
Las plantillas se guardan en una base de datos interna, pero pueden exportarse en forma de
archivos *.lrt en el disco duro. Puede importar y exportar plantillas en el cuadro de dilogo
Administrar plantillas en el Editor de recursos.
Para importar una plantilla
E En el cuadro de dilogo, pulse en Importar. Aparecer el cuadro de dilogo Importar plantilla.

197
Plantillas y recursos
Figura 8-6
Cuadro de dilogo Importar plantilla

E Seleccione el archivo de la plantilla de recursos (*.lrt) para importar y pulse en Importar. Puede

guardar la plantilla que est importando con otro nombre o sobrescribir la existente. El cuadro de
dilogo se cierra y la plantilla aparece ahora en la tabla.
Para exportar una plantilla
E En el cuadro de dilogo, seleccione la plantilla que desea exportar y pulse en Exportar. Aparecer

el cuadro de dilogo Seleccionar directorio.


Figura 8-7
Cuadro de dilogo Seleccionar directorio

E Seleccione el directorio al que desea exportar y pulse en Exportar. Este cuadro de dilogo se cierra

y la plantilla se exporta y adopta la extensin de archivo (*.lrt)

Copia de seguridad de los recursos


Puede hacer una copia de seguridad de sus recursos peridicamente como medida de seguridad.

198
Captulo 8

Importante: A la hora de restaurar, los contenidos completos de los recursos se limpiarn y slo
podr accederse al contenido del archivo de seguridad en el producto. Esta accin incluye todos
los trabajos abiertos.
Para hacer una copia de seguridad de los recursos
E En los mens elija Recursos > Realizar copia de seguridad de herramientas> Realizar copia de
seguridad de recursos. Aparecer el cuadro de dilogo Copia de seguridad.
Figura 8-8
Cuadro de dilogo Realizar copia de seguridad de recursos

E Introduzca un nombre para el archivo de copia de seguridad y pulse en Guardar. El cuadro de

dilogo se cierra y se crea el archivo de copia de seguridad.


Para restaurar los recursos
E En los mens elija Recursos > Realizar copia de seguridad de herramientas> Restaurar recursos.

Un mensaje de alerta le advierte que al restaurar se sobrescriben todos los contenidos actuales
de la base de datos.
Figura 8-9
Mensaje de alerta de sobrescritura

E Pulse en S para continuar. Si hay un proyecto abierto, ste ser conservar porque est en la

memoria; sin embargo, deber volver a guardarlo en la base de datos recin restaurada. Se abrir
el cuadro de dilogo.

199
Plantillas y recursos
Figura 8-10
Cuadro de dilogo Restaurar recursos

E Seleccione el archivo de copia de seguridad que desea restaurar y pulse en Abrir. El cuadro de

dilogo se cierra y los recursos se restauran en la aplicacin.


Importante: A la hora de restaurar, los contenidos completos de los recursos se limpiarn y slo
podr accederse al contenido del archivo de seguridad en el producto. Esta accin incluye todos
los trabajos abiertos.

Importacin de los archivos de recursos


Si ha introducido cambios directamente en los archivos de recursos fuera de este producto,
puede importarlos a la biblioteca que quiera seleccionando esta biblioteca y procediendo con la
importacin. Cuando se importa a un directorio, tambin puede importar todos los archivos
admitidos en una biblioteca abierta especfica. Slo puede importar archivos *.txt.
Cada archivo importado debe contener nicamente una entrada por lnea, y si el contenido est
estructurado as:

Una lista de palabras o frases (una por lnea). El archivo se importa como una lista de
trminos para un diccionario de tipo, donde el diccionario de tipo toma el nombre del archivo
menos la extensin.

Una lista de entradas como term1<PESTAA>term2, se importa como una lista de sinnimos,
donde term1 en el conjunto del trmino subyacente y term2 es el trmino objetivo.

Para importar un solo archivo de recursos


E En los mens elija Recursos > Importar archivos > Importar archivo nico. Aparecer el cuadro de

dilogo Importar archivo.

200
Captulo 8
Figura 8-11
Cuadro de dilogo Importar archivo

E Seleccione el archivo que desea importar y pulse en Importar. El contenido del archivo se

transforma en un formato interno y se aade a la biblioteca.


Para importar todos los archivos de un directorio
E En los mens elija Recursos > Importar archivos > Importar directorio completo. Aparecer el cuadro

de dilogo Directorio de importacin.


Figura 8-12
Cuadro de dilogo Directorio de importacin

E Seleccione la biblioteca en la que desee que se importen todos los archivos de recursos de la
lista Importar. Si selecciona la opcin Por defecto, se crear una biblioteca nueva con el mismo

nombre del directorio.


E Seleccione el directorio desde el que importar los archivos. Los subdirectorios no se leern.

201
Plantillas y recursos
E Pulse en Importar. El cuadro de dilogo se cierra y el contenido de los archivos de recursos

importados aparece ahora en el editor en forma de diccionarios y de archivos de recursos


avanzados.

Captulo

Trabajo con bibliotecas

Los recursos que utiliza el motor de extraccin para extraer y agrupar trminos de los datos de
texto siempre contienen una o ms bibliotecas. Puede ver el conjunto de bibliotecas en el rbol
de bibliotecas situado en la parte superior izquierda de Editor de recursos. Las bibliotecas estn
compuestas por tres tipos de diccionarios: De tipo, de sustitucin y de exclusin. Si desea obtener
ms informacin, consulte el tema Acerca de los diccionarios de biblioteca en el captulo 10
el p. 215.
La plantilla de recursos o los recursos del TAP que seleccion incluye varias bibliotecas que le
permiten empezar a extraer inmediatamente conceptos de los datos de texto. Sin embargo, puede
crear y publicar sus propias bibliotecas para poder reutilizarlas. Si desea obtener ms informacin,
consulte el tema Publicacin de bibliotecas el p. 211.
Por ejemplo, supongamos que suele trabajar con datos de texto relacionados con la industria del
automvil. Despus de analizar los datos, decide que desea crear algunos recursos personalizados
para gestionar el vocabulario o la jerga especfica de dicha industria. Con el Editor de recursos,
puede crear una plantilla nueva, y en ella una biblioteca para extraer y agrupar los trminos
automovilsticos. Puesto que volver a necesitar la informacin de esta biblioteca, la biblioteca
se publica en un repositorio central que es accesible desde el cuadro de dilogo Administrar
bibliotecas, para que pueda reutilizarse independientemente en diferentes proyectos.
Supongamos que tambin desea agrupar trminos especficos de diferentes subsectores, como
dispositivos electrnicos, motores, sistemas de refrigeracin o incluso de un fabricante o mercado
en particular. Puede crear una biblioteca para cada grupo y luego publicarlas para que puedan
utilizarse en diferentes conjuntos de datos de texto. De esta forma, puede aadir las bibliotecas
que mejor se correspondan con el contexto de los datos de texto.
Nota: En la pestaa Recursos avanzados pueden configurarse y administrarse recursos adicionales.
Algunos se aplican a todas las bibliotecas y administran entidades no lingsticas, excepciones
de agrupacin difusa, etc. Si desea obtener ms informacin, consulte el tema Acerca de los
recursos avanzados en el captulo 11 el p. 233.

Bibliotecas enviadas
Por defecto se instalan varias bibliotecas con IBM SPSS Text Analytics for Surveys.
Puede utilizar estas bibliotecas preformateadas para acceder a miles de trminos y sinnimos
predefinidos, y a muchos tipos diferentes. A estas bibliotecas enviadas se les realizan ajustes
segn los diferentes dominios y estn disponibles en varios idiomas distintos.
Existe un gran nmero de bibliotecas pero las que se utilizan habitualmente son las siguientes:

Biblioteca local. Se utiliza para almacenar diccionarios definidos por el usuario. Es una

biblioteca vaca que se aade por defecto a todos los recursos. Tambin contiene un
diccionario vaco de tipo. Resulta ms til cuando se realizan cambios o reajustes en los
recursos directamente (como aadir una palabra a un tipo) desde ventana de anlisis de
texto. En este caso, estos cambios y reajustes se almacenan automticamente en la primera
Copyright IBM Corporation 2004, 2011.

202

203
Trabajo con bibliotecas

biblioteca de la lista del rbol de bibliotecas, en el Editor de recursos; por defecto, es la


Biblioteca local. Esta biblioteca no puede publicarse porque es especfica de los datos del
proyecto. Si desea publicar el contenido, primero deber cambiar el nombre de la biblioteca.

Biblioteca Core. Se utiliza en la mayora de los casos, pues contiene los cinco tipos bsicos

incorporados, que representan a personas, ubicaciones, organizaciones, productos y


desconocido. Es posible que slo vea unos cuantos trminos en uno de sus diccionarios
de tipo, pero los tipos que estn representados en la biblioteca Core son en realidad
complementos de los tipos ms slidos que se encuentran en los recursos compilados internos
que se entregan junto con el producto de minera de datos de texto. Estos recursos compilados
internos contienen miles de trminos por cada tipo. Por esta razn, aunque un trmino no
pueda verse en la lista de trminos del diccionario de tipo, todava puede extraerse y escribirse
con un tipo Core. Esto explica cmo nombres como Jorge pueden extraerse y tipificarse
como <Person> mientras que en el diccionario de tipo <Person> de la biblioteca Core solo
aparece el nombre ingls John. Del mismo modo, si no incluye la biblioteca Core, puede que
siga viendo estos tipos en los resultados de extraccin, puesto que el motor de extraccin
utilizar los recursos compilados que contienen estos tipos.

Biblioteca Opinions. Se utiliza habitualmente para extraer opiniones e impresiones de los datos

de texto. Esta biblioteca incluye miles de palabras que representan actitudes, cualificadores
y preferencias quecuando se utilizan en conjuncin con otros trminosindican una
opinin sobre un tema. Esta biblioteca incluye un nmero de tipos, sinnimos y exclusiones
incorporadas. Tambin incluye un voluminoso conjunto de reglas de patrones que se utilizan
para el anlisis de enlace de texto.

Biblioteca Budget. Se utiliza para extraer los trminos relacionados con el coste de las cosas.

Esta biblioteca incluye muchas palabras y frases que representan adjetivos, cualificadores y
juicios sobre el precio o la calidad de las cosas.

Biblioteca Variations. Se utiliza para incluir casos donde algunas variaciones del idioma

requieren definiciones de sinnimos para poder agruparlas adecuadamente. Esta biblioteca


solo contiene definiciones de sinnimos.
Aunque algunas de las bibliotecas enviadas fuera de las plantillas tienen un contenido similar al de
algunas plantillas, stas se han ajustado especficamente a aplicaciones determinadas y contienen
recursos avanzados adicionales. Es recomendable que intente utilizar una plantilla que se haya
diseado para el tipo de datos de texto con el que est trabajando y realice sus cambios en aquellos
recursos en lugar de aadir simplemente bibliotecas individuales a una plantilla ms general.
Con SPSS Text Analytics for Surveys tambin se entregan recursos compilados. Siempre
se utilizan durante el proceso de extraccin y contienen un gran nmero de definiciones
complementarias a los diccionarios de tipo incorporados en las bibliotecas por defecto. Puesto que
estos recursos estn compilados, no pueden verse ni editarse. Sin embargo, puede forzar que un
trmino especificado en los recursos compilados se coloque en otro diccionario. Si desea obtener
ms informacin, consulte el tema Forzado de trminos en el captulo 10 el p. 222.

Creacin de bibliotecas
Puede crear un nmero indefinido de bibliotecas. Despus de crear una biblioteca nueva, puede
empezar a crear diccionarios de tipo dentro de la biblioteca e introducir trminos, sinnimos
y exclusiones.

204
Captulo 9
Figura 9-1
Cuadro de dilogo Propiedades de biblioteca

Para crear una biblioteca


E En los mens elija Recursos > Nueva biblioteca. Se abre el cuadro de dilogo Aadir biblioteca al

proyecto.
E Introduzca un nombre para la biblioteca en el cuadro de texto Nombre.
E Si lo desea, introduzca un comentario en el cuadro de texto Anotacin.
E Pulse en Publicar si desea publicar esta biblioteca ahora antes de introducir nada ms en ella.

Si desea obtener ms informacin, consulte el tema Compartimiento de bibliotecas el p. 210.


Tambin puede publicarla en cualquier otro momento.
E Pulse en Aceptar para crear la biblioteca. El cuadro de dilogo se cierra y la biblioteca aparece

en la vista de rbol. Si expande las bibliotecas del rbol, comprobar que en la biblioteca se ha
incluido automticamente un diccionario vaco de tipo. Puede empezar a aadir trminos en l
inmediatamente. Si desea obtener ms informacin, consulte el tema Adicin de trminos en el
captulo 10 el p. 219.

Adicin de bibliotecas pblicas


Si desea reutilizar una biblioteca de los datos de otra o proyecto, puede aadirla a sus recursos
actuales siempre que se trate de una biblioteca pblica. Una biblioteca pblica es aquella que ha
sido publicada. Si desea obtener ms informacin, consulte el tema Publicacin de bibliotecas
el p. 211.
Cuando aade una biblioteca pblica, se incrusta una copia local en los datos de la o proyecto.
Puede realizar cambios en esta biblioteca, pero deber volver a publicar su versin pblica para
poder compartir los cambios.
Cuando se aade una biblioteca pblica, puede aparecer el cuadro de dilogo Resolver
conflictos si se detectan conflictos entre los trminos y los tipos de una biblioteca y las otras
bibliotecas locales. Deber resolver estos conflictos o aceptar las resoluciones propuestas para
poder finalizar la operacin. Si desea obtener ms informacin, consulte el tema Resolucin de
conflictos el p. 213.

205
Trabajo con bibliotecas

Nota: si siempre actualiza las bibliotecas cuando abre un proyecto o las publica cuando cierra
un proyecto, ser menos probable que tenga bibliotecas desincronizadas. Si desea obtener ms
informacin, consulte el tema Compartimiento de bibliotecas el p. 210.
Figura 9-2
Cuadro de dilogo Aadir biblioteca

Para aadir una biblioteca


E En los mens elija Recursos > Aadir biblioteca. Aparecer el cuadro de dilogo Aadir biblioteca.
E Seleccione la biblioteca o bibliotecas de la lista.
E Pulse en Aadir. Si se producen conflictos entre las bibliotecas recin aadidas y las que ya existan,

se le pedir que verifique las resoluciones de conflictos o que las cambie antes de finalizar la
operacin. Si desea obtener ms informacin, consulte el tema Resolucin de conflictos el p. 213.

Bsqueda de trminos y tipos


Puede buscar en los diversos paneles del editor utilizando la funcin Buscar. En los mens del
editor puede elegir Editar > Buscar; aparecer la barra de herramientas Buscar. Puede utilizar esta
barra de herramientas para buscar una aparicin cada vez. Si pulsa Buscar de nuevo, puede buscar
apariciones subsiguientes del trmino de bsqueda.
Al realizar la bsqueda, el editor solo busca en la biblioteca o bibliotecas de la lista desplegable
de la barra de herramientas Buscar. Si se selecciona Todas las bibliotecas, el programa buscar
en todas las bibliotecas del editor.
Cuando se inicia una bsqueda, empieza por el rea que tiene el foco. La bsqueda contina a
travs de cada seccin, y vuelve al principio hasta que llega a la casilla activa. Puede invertir el
orden de la bsqueda mediante las flechas direccionales. Tambin puede elegir si su bsqueda
distingue o no entre maysculas y minsculas.
Para buscar cadenas en la vista
E En los mens elija Editar > Buscar. Aparece la barra de herramientas Buscar.
E Escriba la cadena que desea buscar.

206
Captulo 9
E Pulse en el botn Buscar para empezar la bsqueda. La siguiente aparicin del trmino o del

tipo quedar resaltada.


E Pulse otra vez en el botn para pasar de una aparicin a otra.

Visin de bibliotecas
Puede mostrar los contenidos de una biblioteca particular o de todas las bibliotecas. Esto puede
resultar til cuando trabaja con muchas bibliotecas o cuando desea revisar los contenidos de una
biblioteca especfica antes de publicarla. El cambio de la vista slo incide en lo que ve en esta
pestaa Recursos de la biblioteca, pero no impide el uso de las bibliotecas durante la extraccin.
Si desea obtener ms informacin, consulte el tema Desactivacin de bibliotecas locales el p. 207.
La vista por defecto es Todas las bibliotecas, que muestra todas las bibliotecas del rbol y sus
contenidos en otros paneles. Puede cambiar esta seleccin utilizando la lista desplegable en la
barra de herramientas o mediante la seleccin de un men (Ver > Bibliotecas). Cuando se est
viendo una sola biblioteca, todos los elementos del resto de las bibliotecas desaparecen de la vista
pero siguen leyndose durante la extraccin.
Para cambiar la vista de Biblioteca
E En los mens de la pestaa Recursos de la biblioteca, elija Ver > Bibliotecas. Se abre un men con

todas las bibliotecas locales.


E Seleccione la biblioteca que desea ver o seleccione la opcin Todas las bibliotecas para ver los

contenidos de todas las bibliotecas. Los contenidos de la vista se filtran de acuerdo con su
seleccin.

Administracin de las bibliotecas locales


Las bibliotecas locales son aquellas que se encuentran dentro de del proyecto o dentro de una
plantilla, en contraposicin a las bibliotecas pblicas. Si desea obtener ms informacin, consulte
el tema Administracin de bibliotecas pblicas el p. 208. Existen tambin algunas tareas de
administracin de bibliotecas locales bsicas que puede realizar, por ejemplo: cambiar el nombre,
desactivar o eliminar una biblioteca local.

Cambio de nombre de las bibliotecas locales


Puede cambiar el nombre de las bibliotecas locales. Si cambia el nombre de una biblioteca local,
elimina la asociacin que tiene de la versin pblica, si es que existe. Esto significa que si realiza
cambios posteriores no podr compartirlos en la versin pblica. Puede volver a publicar esta
biblioteca local con un nombre nuevo. Esto significa tambin que no podr actualizar la versin
pblica original con cambios que realice en esta versin local.
Nota: No puede cambiar el nombre de una biblioteca pblica.
E En los mens elija Editar > Propiedades de biblioteca. Aparecer el cuadro de dilogo Propiedades

de biblioteca.

207
Trabajo con bibliotecas
Figura 9-3
Cuadro de dilogo Propiedades de biblioteca

Para cambiar el nombre de una biblioteca local


E En la vista de rbol, seleccione la biblioteca a la que desea cambiar el nombre.
E Introduzca un nombre nuevo para la biblioteca en el cuadro de texto Nombre.
E Pulse en Aceptar para aceptar el nombre nuevo de la biblioteca. El cuadro de dilogo se cierra

y el nombre de la biblioteca se actualiza en la vista de rbol.

Desactivacin de bibliotecas locales


Si desea excluir temporalmente una biblioteca del proceso de extraccin, puede anular la seleccin
del cuadro de verificacin a la izquierda del nombre de la biblioteca de la vista de rbol. Esto
indica que desea conservar la biblioteca pero que su contenido se pase por alto cuando se realice la
comprobacin de conflictos y durante el proceso de extraccin.
Para desactivar una biblioteca
E En el panel del rbol de bibliotecas, seleccione la biblioteca que desea desactivar.
E Pulse la barra espaciadora. Se borra la marca de la casilla de verificacin a la izquierda del nombre.

Eliminacin de bibliotecas locales


Puede suprimir una biblioteca sin eliminar la versin pblica de la misma y viceversa. La
eliminacin de una biblioteca local puede eliminar la biblioteca y todo su contenido solamente de
del proyecto. La eliminacin de una versin local de una biblioteca no supone la eliminacin de
dicha biblioteca de otras o proyectos ni de la versin pblica. Si desea obtener ms informacin,
consulte el tema Administracin de bibliotecas pblicas el p. 208.
Para eliminar una biblioteca local
E En la vista de rbol, seleccione la biblioteca que desea eliminar.
E En los mens elija Editar > Eliminar para eliminar la biblioteca. La biblioteca se elimina.

208
Captulo 9
E Si nunca haba publicado la biblioteca, se abre un mensaje que le pregunta si desea eliminar la
biblioteca o conservarla. Pulse en Eliminar para continuar o Conservar si desea conservarla.

Nota: siempre debe quedar una biblioteca.

Administracin de bibliotecas pblicas


Para poder reutilizar las bibliotecas pblicas, puede publicarlas y luego trabajar con ellas y verlas
en el cuadro de dilogo Administrar bibliotecas (Recursos > Administrar bibliotecas). Si desea
obtener ms informacin, consulte el tema Compartimiento de bibliotecas el p. 210.Algunas de las
tareas bsicas de administracin de bibliotecas pblicas que puede realizar son importar, exportar
o eliminar una biblioteca pblica. No puede cambiar el nombre de una biblioteca pblica.
Figura 9-4
Cuadro de dilogo Administrar bibliotecas

Importacin de bibliotecas pblicas


E En el cuadro de dilogo Administrar bibliotecas, pulse en Importar.... Aparecer el cuadro de

dilogo Importar biblioteca.


Figura 9-5
Cuadro de dilogo Importar biblioteca

209
Trabajo con bibliotecas
E Seleccione el archivo de biblioteca (*.lib) que desea importar, y si tambin desea aadirla
localmente seleccione Aadir biblioteca al proyecto actual.
E Pulse en Importar. El cuadro de dilogo se cierra. Si ya existe una biblioteca pblica con el mismo

nombre, se le pedir que cambie el nombre de la biblioteca que est importando o que sobrescriba
la biblioteca pblica actual.
Exportacin de bibliotecas pblicas

Puede exportar bibliotecas pblicas en formato .lib para poder compartirlas.


E En el cuadro de dilogo Administrar bibliotecas, seleccione la biblioteca que desea exportar

a la lista.
E Pulse en Exportar. Aparecer el cuadro de dilogo Seleccionar directorio.
Figura 9-6
Cuadro de dilogo Seleccionar directorio

E Seleccione el directorio al que desea exportar y pulse en Exportar. El cuadro de dilogo se cierra

y el archivo de biblioteca (*.lib) se exporta.


Eliminacin de bibliotecas pblicas

Puede suprimir una biblioteca local sin eliminar la versin pblica de la misma y viceversa. Sin
embargo, si se elimina la biblioteca de este cuadro de dilogo, ya no podr aadirla a ningn
proyecto hasta que vuelva a publicar una versin local.
Si elimina una biblioteca que estaba instalada en el producto, se restaurar la versin originalmente
instalada.
E En el cuadro de dilogo Administrar bibliotecas, seleccione la biblioteca que desea eliminar.

Puede ordenar la lista pulsando en la cabecera apropiada.


E Pulse en Eliminar para eliminar la biblioteca. IBM SPSS Text Analytics for Surveys verifica si

la versin local de la biblioteca coincide con la biblioteca pblica. En caso afirmativo, la biblioteca

210
Captulo 9

se elimina sin emitir ningn mensaje de alerta. Si las versiones de las bibliotecas difieren, se abre
un mensaje de alerta para preguntarle si desea conservar o eliminar la versin pblica.

Compartimiento de bibliotecas
Las bibliotecas le permiten trabajar con recursos que le facilitan poder compartirlas entre varios
proyectos. Las bibliotecas pueden existir en dos estados o versiones posibles. Las bibliotecas que
estn asociadas con un proyecto determinado se denominan bibliotecas locales. Cuando trabaja
en un proyecto, puede realizar muchos cambios en la biblioteca Vegetales, por ejemplo. Si los
cambios realizados fueron tiles en otros datos, puede hacer que estos recursos estn disponibles
creando una versin de biblioteca pblica de la biblioteca Vegetales. Una biblioteca pblica,
como su nombre indica, est disponible para cualquier otro proyecto.
Las bibliotecas pblicas pueden verse en el cuadro de dilogo Administrar bibliotecas. Cuando
haya creado esta versin de biblioteca pblica, podr aadirla a los recursos de otros contextos
para poder compartir estos recursos lingsticos personalizados.
Las bibliotecas enviadas inicialmente son bibliotecas pblicas. Se pueden editar los recursos
de estas bibliotecas y luego crear una versin pblica nueva. Estas nuevas versiones podran
accederse en otros proyectos nuevos.
A medida que trabaje con las bibliotecas y realice cambios, las versiones de la biblioteca
quedarn desincronizadas. En algunos casos, una versin local puede ser ms reciente que una
versin pblica, y en otros casos, la versin pblica puede ser ms reciente que la versin local.
Tambin es posible que tanto la versin pblica como la local contengan cambios que la otra
biblioteca no contenga si la versin pblica se actualiz desde otro proyecto. Si las versiones de
las bibliotecas se desincronizan, puede sincronizarlas de nuevo. La sincronizacin de las versiones
de las bibliotecas consiste en volver a publicar y/o actualizar las bibliotecas locales.
Cuando abra o cierre un proyecto, se le pedir que sincronice todas las bibliotecas que
deban actualizarse o volver a publicarse. Tambin puede identificar fcilmente el estado de
sincronizacin de la biblioteca local mediante el icono que aparece junto al nombre de la biblioteca
en la vista de rbol, o bien en el cuadro de dilogo Propiedades de biblioteca. Tambin puede
optar por hacerlo en cualquier momento mediante las selecciones de men apropiadas. En la tabla
siguiente se describen los cinco estados posibles y sus iconos asociados.
Tabla 9-1
Estados de sincronizacin de la biblioteca local

Icono

Descripcin del estado de la biblioteca local


Sin publicarla biblioteca local no se ha publicado nunca.
SincronizadaLas versiones de la biblioteca local y pblica son idnticas. Tambin se
aplica a la Biblioteca local, que no puede publicarse porque est diseada para que contenga
nicamente recursos especficos de o proyecto.
DesactualizadaLa versin de la biblioteca pblica es ms reciente que la versin local.
Puede actualizar la versin local con los cambios.
RecienteLa versin de la biblioteca local es ms reciente que la versin pblica. Puede
volver a publicar la versin local a la versin pblica.
DesincronizadaTanto la biblioteca local como la pblica contienen cambios que la otra no
contiene. Debe decidir si actualizar o publicar la biblioteca local. Si decide actualizar, perder
los cambios realizados hasta la ltima vez que la actualiz o public. Si decide publicar, se
sobrescribirn los cambios de la versin pblica.

211
Trabajo con bibliotecas

Nota: si siempre actualiza las bibliotecas cuando abre un proyecto o las publica cuando cierra un
proyecto, ser menos probable que tenga bibliotecas desincronizadas.
Puede volver a publicar una biblioteca en cualquier momento que considere que los cambios
realizados en la biblioteca pueden beneficiar a los proyectos que tambin pueden contener esta
biblioteca. A continuacin, si los cambios pueden beneficiar a otros proyectos, puede actualizar
las versiones locales de dichos proyectos. De esta forma, puede crear proyectos para cada contexto
o dominio que se aplique a los datos mediante la creacin de nuevas bibliotecas y/o la adicin de
un nmero indefinido de bibliotecas pblicas a los recursos.
Si se comparte una versin pblica de una biblioteca, habr mayores probabilidades de que
las diferencias entre las versiones local y pblica aumenten. Cuando abra o publique al cerrar
un proyecto, aparecer un mensaje que le permitir publicar y/o actualizar las bibliotecas cuyas
versiones no estn sincronizadas con las del cuadro de dilogo Administrar bibliotecas. Si la
versin de la biblioteca pblica es ms reciente que la versin local, un cuadro de dilogo le
preguntar si desea actualizar las que estn abiertas. Puede optar por conservar la versin local
tal como est en lugar de actualizarla con la versin pblica, o bien fusionar las actualizaciones
en la biblioteca local.

Publicacin de bibliotecas
Si nunca ha publicado una biblioteca determinada, la publicacin implica crear una copia pblica
de la biblioteca local en la base de datos. Si vuelve a publicar una biblioteca, los contenidos de la
biblioteca local reemplazarn los contenidos de la versin pblica existente. Despus de volver
a publicar, puede actualizar esta biblioteca en cualquier otro proyecto para que sus versiones
locales estn sincronizadas con la versin pblica. Aunque pueda publicar una biblioteca, siempre
se guardar una versin local en el proyecto.
Importante: Si realiza cambios en la biblioteca local y, mientras tanto, la versin pblica de la
biblioteca tambin se cambia, se considerar que su biblioteca est desincronizada. Se recomienda
que empiece actualizando la versin local con los cambios pblicos, realizar los cambios que
desee y despus publicar la versin local otra vez para que las dos versiones sean idnticas. Si
primero realiza los cambios y publica, se sobrescribirn los cambios de la versin pblica.
Figura 9-7
Cuadro de dilogo Publicar bibliotecas

212
Captulo 9

Para publicar bibliotecas locales en la base de datos


E En los mens elija Recursos > Publicar bibliotecas. Se abre el cuadro de dilogo Publicar bibliotecas

con todas las bibliotecas que necesitan publicarse seleccionadas por defecto.
E Marque la casilla ce verificacin de la izquierda de cada biblioteca que desee publicar o volver

a publicar.
E Pulse en Publicar para publicar las bibliotecas en la base de datos Administrar bibliotecas.

Actualizacin de bibliotecas
Cuando abre o publica al cerrar un proyecto, puede actualizar o publicar las bibliotecas que
ya no estn sincronizadas con las versiones pblicas. Si la versin de la biblioteca pblica
es ms reciente que la versin local, un cuadro de dilogo le preguntar si desea actualizar las
que estn abiertas. Puede optar entre conservar la versin local en lugar de actualizarla con la
versin pblica, y reemplazar la versin local con la de la pblica. Si la versin pblica de una
biblioteca es ms reciente que la versin local, puede actualizar la versin local para sincronizar
su contenido con el de la versin pblica. Actualizar significa incorporar en la versin local los
cambios encontrados en la versin pblica.
Nota: si siempre actualiza las bibliotecas cuando abre un proyecto o las publica cuando cierra
un proyecto, ser menos probable que tenga bibliotecas desincronizadas. Si desea obtener ms
informacin, consulte el tema Compartimiento de bibliotecas el p. 210.
Figura 9-8
Cuadro de dilogo Actualizar bibliotecas

Para actualizar bibliotecas locales


E En los mens elija Recursos > Actualizar bibliotecas. Se abre el cuadro de dilogo Actualizar

bibliotecas con todas las bibliotecas que necesitan actualizarse seleccionadas por defecto.
E Marque la casilla ce verificacin de la izquierda de cada biblioteca que desee publicar o volver

a publicar.
E Pulse en Actualizar para actualizar las bibliotecas locales.

213
Trabajo con bibliotecas

Resolucin de conflictos
Conflictos de la biblioteca local frente a la pblica

Cuando abre un proyecto, IBM SPSS Text Analytics for Surveys realiza una comparacin de
las bibliotecas locales y de las que figuran en la lista del cuadro de dilogo Administrar bibliotecas.
Si alguna de las bibliotecas locales del proyecto no estn sincronizadas con las versiones
publicadas, se abre el cuadro de dilogo Advertencia de sincronizacin de biblioteca. Puede elegir
entre las opciones siguientes para seleccionar las versiones de biblioteca que desea utilizar aqu:

Todas las bibliotecas locales del archivo. Esta opcin conserva todas las bibliotecas locales tal

como estn. Siempre puede volver a publicarlas o actualizarlas en otro momento.

Todas las bibliotecas publicadas de este equipo. Esta opcin sustituye las bibliotecas locales

que se muestran por las versiones que se encuentran en la base de datos.

Todas las bibliotecas ms recientes. Esta opcin sustituye las bibliotecas locales ms antiguas

por las versiones pblicas ms recientes de la base de datos.

Otro. Esta opcin permite seleccionar manualmente las versiones que desee eligindolas

a partir de la tabla.
Conflictos en los trminos forzados

Cuando aade una biblioteca pblica o actualiza una biblioteca local, pueden quedar al descubierto
conflictos y entradas duplicadas entre los trminos y los tipos de esta biblioteca y los trminos
y los tipos de las otras bibliotecas de sus recursos. Si esto ocurre, se le pedir que verifique las
resoluciones de conflictos que se proponen o que las cambie antes de finalizar la operacin en el
cuadro de dilogo Editar trminos forzados. Si desea obtener ms informacin, consulte el tema
Forzado de trminos en el captulo 10 el p. 222.
Figura 9-9
Cuadro de dilogo Editar trminos forzados

El cuadro de dilogo Editar trminos forzados contiene las parejas de trminos o tipos conflictivos.
Se utilizan colores de fondo alternos para distinguir visualmente cada pareja conflictiva. Estos
colores pueden cambiarse en el cuadro de dilogo Opciones. Si desea obtener ms informacin,

214
Captulo 9

consulte el tema Opciones: Pestaa Mostrar en el captulo 2 el p. 19. El cuadro de dilogo Editar
trminos forzados contiene dos pestaas:

Duplicados. Esta pestaa contiene los trminos duplicados que se encuentran en las bibliotecas.

Si aparece un icono de chincheta detrs de cada trmino, significa que esta aparicin del
trmino est forzada. Si aparece un icono de X de color negro, significa que esta aparicin del
trmino se pasar por alto durante la extraccin porque est forzado en algn otro sitio.

Definido por el usuario. Esta pestaa contiene una lista de los trminos que se han forzado

manualmente en este panel de trminos del diccionario de tipo y no a travs de los conflictos.
Nota: el cuadro de dilogo Editar trminos forzados se abrir despus de que aada o actualice
una biblioteca. Si cancela este cuadro de dilogo, no significa que cancele la actualizacin o
la adicin de la biblioteca.
Para resolver conflictos
E En el cuadro de dilogo Editar trminos forzados, seleccione el botn de radio de la columna Usar

correspondiente al trmino que desea forzar.


E Cuando haya terminado, pulse en Aceptar para aplicar los trminos forzados y cerrar el cuadro de
dilogo. Si pulsa en Cancelar, se cancelarn los cambios realizados en el cuadro de dilogo.

Captulo

Acerca de los diccionarios de


biblioteca

10

Los recursos utilizados para extraer datos de texto se guardan en forma de plantillas y bibliotecas.
Cada biblioteca se compone de tres diccionarios.

El diccionario de tipo contiene una recopilacin de palabras que se agrupan bajo una misma
etiqueta, tipo o nombre. Cuando el motor de extraccin lee los datos de texto, compara las
palabras que encuentra en el texto con los trminos definidos en los diccionarios de tipo.
Durante la extraccin, las formas declinadas de los sinnimos y los trminos de tipo se
agrupan bajo un trmino objetivo llamado concepto. Los conceptos extrados se asignan al
diccionario de tipo donde aparecen como trminos. Puede administrar los diccionarios de tipo
en los paneles central y superior izquierdo del editorel rbol de bibliotecas y el panel de
trminos. Si desea obtener ms informacin, consulte el tema Diccionarios de tipo el p. 215.

El diccionario de sustitucin contiene una recopilacin de trminos definidos como sinnimos


o como elementos opcionales que se utilizan para agrupar trminos similares bajo un trmino
objetivo, llamado concepto en los resultados de extraccin finales. Puede administrar los
diccionarios de sustitucin en el panel inferior izquierdo del editor utilizando la pestaa
Sinnimos y la pestaa Opcional. Si desea obtener ms informacin, consulte el tema
Diccionarios de sustitucin/sinnimos el p. 225.

El diccionario de exclusin contiene una recopilacin de trminos y tipos que se eliminarn


de los resultados de la extraccin final. Puede administrar los diccionarios de exclusin
en el panel del extremo derecho del editor. Si desea obtener ms informacin, consulte el
tema Diccionarios de exclusin el p. 231.

Si desea obtener ms informacin, consulte el tema Trabajo con bibliotecas en el captulo 9


el p. 202.

Diccionarios de tipo
Un diccionario de tipo est compuesto por un nombre o etiqueta de tipo, y una lista de trminos.
Los diccionarios de tipo se administran en los paneles central y superior izquierdo de la pestaa
Recursos de la biblioteca del editor. Puede acceder a esta vista en Ver > Editor de recursos en
los mens.
Cuando el motor de extraccin lee los datos de texto, compara las palabras que encuentra en el
texto con los trminos definidos en los diccionarios de tipo. Los trminos son palabras o frases de
los diccionarios de tipo de los recursos lingsticos.
Cuando una palabra coincide con un trmino, se le asigna al nombre de tipo correspondiente a
dicho trmino. Cuando los recursos se leen durante la extraccin, los trminos que se encontraron
en el texto pasan una serie de procedimientos antes de que se conviertan en conceptos en el
panel Resultados extrados. Si el motor de extraccin considera que los diferentes trminos que
pertenecen a un mismo diccionario son sinnimos, se agruparn bajo el trmino que aparezca
con ms frecuencia y se denominar como un concepto en el panel Resultados extrados. Por
Copyright IBM Corporation 2004, 2011.

215

216
Captulo 10

ejemplo, cuando los trminos pregunta y consulta aparecen bajo el nombre de concepto
pregunta al final.
Figura 10-1
rbol de bibliotecas y panel de trminos

La lista de diccionarios de tipo se muestra en el panel del rbol de bibliotecas a la izquierda.


El contenido de cada diccionario de tipo aparece en el panel central. Los diccionarios de tipo
constituyen algo ms que una simple lista de trminos. La manera en que las palabras y las frases
de los datos de texto se hacen coincidir con los trminos definidos en los diccionarios de tipo est
determinada por la opcin de coincidencia que se haya definido. Una opcin de coincidencia
especifica de qu manera el tema se ancla a una palabra o frase candidata en los datos de texto. Si
desea obtener ms informacin, consulte el tema Adicin de trminos el p. 219.
Tambin puede ampliar los trminos del diccionario de tipo especificando si desea que se generen
y se aadan automticamente al diccionario formas declinadas de los trminos. Al generar formas
declinadas, automticamente se aaden los plurales de los trminos en singular, y los singulares de
los trminos en plural, y los adjetivos en el diccionario de tipo. Si desea obtener ms informacin,
consulte el tema Adicin de trminos el p. 219.
Nota: conceptos que no se encuentran en ningn diccionario de tipo pero que se extraen del texto
se tipifican automticamente como <Unknown>.

Tipos incorporados
IBM SPSS Text Analytics for Surveys se entrega con un conjunto de recursos lingsticos
en forma de bibliotecas enviadas y recursos compilados. Las bibliotecas incluidas contienen un
conjunto de diccionarios de tipo integrados que incluyen <Location>, <Organization>,
<Person> y <Product>.
Estos diccionarios de tipo los utiliza el motor de extraccin para asignar tipos a los conceptos
que extrae, como la asignacin del tipo <Location> al concepto pars. Aunque en los
diccionarios de tipo incorporados hay un gran nmero de trminos ya definidos, no abarcan todas

217
Acerca de los diccionarios de biblioteca

las posibilidades. Por lo tanto, puede aadir trminos en los diccionarios o crear los suyos propios.
Para obtener una descripcin de los contenidos de un determinado diccionario de tipo enviado,
lea la anotacin del cuadro de dilogo Propiedades de tipo. Seleccione el tipo en el rbol y elija
Editar > Propiedades en el men contextual.
Nota: Adems de las bibliotecas enviadas, los recursos compartidos (que tambin utiliza el motor
de extraccin) contienen un gran nmero de definiciones complementarias a los diccionarios de
tipo incorporados, pero su contenido no est visible en el producto. Sin embargo, puede forzar que
un trmino especificado en los diccionarios compilados se coloque en otro diccionario. Si desea
obtener ms informacin, consulte el tema Forzado de trminos el p. 222.

Creacin de tipos
Puede crear diccionarios de tipo para facilitar la agrupacin de los trminos similares. Cuando
durante el proceso de extraccin se descubren los trminos que aparecen en este diccionario, se
asignarn a este nombre de tipo y se extraern bajo un nombre de concepto. Siempre que se crea
una biblioteca, se incluye una biblioteca de tipos vaca para que pueda empezar a introducir
trminos inmediatamente.
Si est analizando texto sobre alimentos y desea agrupar trminos bajo la categora de verduras,
puede crear su propio diccionario de tipo de <Verduras>. Luego puede aadir trminos como
zanahoria, brquil y espinacas si considera que son trminos importantes que aparecern
en el texto. A continuacin, y durante la extraccin, si se encuentra alguno de esos trminos, se
extraen como conceptos y se asignarn al tipo <Verduras>.
No es necesario que defina cada forma de una palabra o expresin, porque puede optar por
generar las formas declinadas de los trminos. Al elegir esta opcin, el motor de extraccin
reconoce automticamente las formas singular y plural de los trminos entre el resto de las formas
como pertenecientes a este tipo. Esta opcin resulta particularmente til cuando el tipo contiene
mayoritariamente sustantivos, puesto que es improbable que desee incluir las formas declinadas
de verbos o adjetivos.
Importante: Se recomienda encarecidamente que no cree nuevos tipos en la biblioteca Opinions,

ya que no se tomarn en cuenta durante el proceso. Los contenidos de la biblioteca Opinions se


maneja de manera distinta que el resto de las bibliotecas, puesto que sirve para generar patrones.
En su lugar, trabaje en los tipos que ya existen en la biblioteca o aada tipos nuevos a otra
biblioteca del proyecto.

218
Captulo 10
Figura 10-2
Cuadro de dilogo Propiedades de tipo

Nombre. El nombre que asigna al diccionario de tipo que est creando. Se recomienda que no
utilice espacios en blanco en los nombres de tipo, sobre todo si hay dos o ms nombres de tipo
que empiecen con la misma palabra.
Coincidencia por defecto. El atributo de coincidencia por defecto indica al motor de extraccin

cmo debe hacer coincidir este trmino con los datos de texto. Siempre que se aade un trmino
a este diccionario de tipo, este es el atributo de coincidencia que se asigna automticamente.
Siempre puede cambiar la opcin de coincidencia manualmente en la lista de trminos. Entre las
opciones disponibles se encuentran: Trmino completo, Inicio, Fin, Cualquiera, Inicio o fin, Completo
e inicio, Completo y fin, Completo y (inicio o fin) yCompleto (sin compuestos). Si desea obtener ms
informacin, consulte el tema Adicin de trminos el p. 219.
Aadir a. Este campo indica la biblioteca donde crear el nuevo diccionario de tipo.
Generar formas declinadas por defecto. Esta opcin indica al motor de extraccin que utilice la

morfologa gramatical para capturar y agrupar formas similares de los trminos que aada a este
diccionario, como las formas singular y plural del trmino. Esta opcin resulta particularmente
til cuando el tipo contiene mayormente sustantivos. Cuando selecciona esta opcin, todos los
trminos nuevos que se aaden a este tipo adoptarn automticamente esta opcin, aunque puede
cambiarlo manualmente en la lista.
Color de fuente. Este campo permite distinguir los resultados de este tipo del resto de resultados de
la interfaz. Si selecciona Usar color principal, tambin se utilizar el color de tipo por defecto para
este diccionario de tipo. Este color por defecto se establece en el cuadro de dilogo Opciones. Si
desea obtener ms informacin, consulte el tema Opciones: Pestaa Mostrar en el captulo 2 el p.
19. Si selecciona Personalizado, seleccione un color de la lista desplegable.
Anotacin. Este campo es opcional y puede utilizarse para introducir comentarios o descripciones.
Para crear un diccionario de tipo
E Seleccione la biblioteca donde desea crear un diccionario de tipo nuevo.

219
Acerca de los diccionarios de biblioteca
E En los mens elija Herramientas > Nuevo tipo. Aparecer el cuadro de dilogo Propiedades de tipo.
E Escriba el nombre del diccionario de tipo en el cuadro de texto Nombre y elija las opciones que

desee.
E Pulse en Aceptar para crear el diccionario de tipo. El nuevo tipo ser visible en el panel del rbol

de bibliotecas y aparecer en el panel central. Puede empezar a aadir trminos inmediatamente.


Si desea obtener ms informacin, consulte Adicin de trminos.
Nota: estas instrucciones indican cmo realizar cambios en la Editor de recursos vista. Tenga
en cuenta que este tipo de ajuste puede hacerlo directamente en el panel Resultados extrados o
en el panel Datos. Si desea obtener ms informacin, consulte el tema Refinamiento de los
resultados de la extraccin en el captulo 5 el p. 86.

Adicin de trminos
El panel del rbol de bibliotecas muestra las bibliotecas y puede expandirse para mostrar tambin
los diccionarios de tipo que contienen. En el panel central aparece una lista de los trminos de la
biblioteca o del diccionario de tipo seleccionados, segn cul sea la seleccin en el rbol.
Figura 10-3
Panel de trminos

En el Editor de recursos, puede aadir trminos a un diccionario de tipo directamente en el panel


de trminos o a travs del cuadro de dilogo Aadir nuevos trminos. Los trminos que aada
pueden ser palabras simples o compuestas. En la parte superior de la lista siempre encontrar una
fila en blanco para que pueda aadir un trmino nuevo.

220
Captulo 10

Nota: estas instrucciones indican cmo realizar cambios en la Editor de recursos vista. Tenga
en cuenta que este tipo de ajuste puede hacerlo directamente en el panel Resultados extrados o
en el panel Datos. Si desea obtener ms informacin, consulte el tema Refinamiento de los
resultados de la extraccin en el captulo 5 el p. 86.
Columna de trminos

En esta columna, introduzca palabras simples o compuestas en la casilla. El color en el que


aparece el trmino depende del color del tipo donde se ha almacenado o forzado el trmino. Puede
cambiar los colores de tipo en el cuadro de dilogo Propiedades de tipo. Si desea obtener ms
informacin, consulte el tema Creacin de tipos el p. 217.
Columna de Forzar

En esta columna, al colocar un icono de chincheta en esta casilla, est indicando al motor de
extraccin que pase por alto el resto de las apariciones de este mismo trmino en otras bibliotecas.
Si desea obtener ms informacin, consulte el tema Forzado de trminos el p. 222.
Columna de Emparejar

En esta columna, seleccione una opcin de coincidencia para indicar al motor de extraccin cmo
debe hacer coincidir este trmino con los datos de texto. Consulte la tabla para ver los ejemplos
pertinentes. Puede cambiar el valor por defecto editando las propiedades de tipo. Si desea obtener
ms informacin, consulte el tema Creacin de tipos el p. 217. En los mens elija Editar > Cambiar
coincidencia. A continuacin figuran las opciones bsicas de coincidencia, puesto que tambin
pueden combinarse:

Inicio. Si el trmino que se encuentra en el diccionario coincide con el principio de un

concepto extrado del texto, se asigna este tipo. Por ejemplo, si especifica tarta, coincidir
con tarta de manzana.

Fin. Si el trmino que se encuentra en el diccionario coincide con el final de un concepto

extrado del texto, se asigna este tipo. Por ejemplo, si especifica manzana, coincidir con
tarta de manzana.

Cualquiera. Si el trmino que se encuentra en el diccionario coincide con cualquier parte de

un concepto extrado del texto, se asigna este tipo. Por ejemplo, si especifica manzana,
la opcin Cualquiera tipificar tarta de manzana, manzana reineta y tarta de
manzanas reinetas de la misma forma.

Trmino completo. Si el concepto completo extrado del texto coincide con el trmino exacto
del diccionario, se asignar este tipo. Si se aade un trmino como Trmino completo,
Completo e inicio, Completo y fin, Completo y todo o Completo (sin compuestos) se forzar la

extraccin de un trmino.
Adems, puesto que el tipo <Person> solo extrae nombres con dos partes, como edith piaf o
mohandas gandhi, puede aadir explcitamente los nombres propios en este diccionario de
tipo si intenta extraer un nombre propio sin que se mencione ningn apellido. Por ejemplo, si

221
Acerca de los diccionarios de biblioteca

desea captar todas las instancias de edith como nombre propio, debe aadir edith al tipo
<Person> utilizando Trmino completo o Completo e inicio.

Completo (sin compuestos). Si el concepto completo extrado del texto coincide con el trmino

exacto en el diccionario, se asignar este tipo y la extraccin se detendr para impedir que la
extraccin haga coincidir el trmino con un compuesto ms largo. Por ejemplo, si especifica
manzana, la opcin Completo (sin compuestos) tipificar manzana pero no el compuesto
zumo de manzana a menos que se fuerce en otro lugar.
En la tabla siguiente, supongamos que el trmino In manzana est en el diccionario de tipo. En
funcin de la opcin de coincidencia, en esta tabla se muestran los conceptos que se extraeran y
tipificaran si se encontraran en el texto.
Tabla 10-1
Ejemplos de coincidencias

Conceptos extrados

Opciones de coincidencia para


el trmino:

mar

mar

tarta de

madura

manzana

manzana

no se extrae
nunca

no se extrae
nunca

tarta
de manzana

casera

Trmino completo
Inicio
Fin
Inicio o fin
Completo e inicio
Completo y fin
Completo y (inicio o fin)
Cualquiera
Completo y todo
Completo (sin compuestos)

no se extrae
nunca

Columna de Flexionar

En esta columna, seleccione si el motor de extraccin debe generar formas declinadas de este
trmino durante la extraccin, de manera que se agrupen juntas. El valor por defecto de esta
columna est definido en Propiedades de tipo, pero puede cambiar esta opcin en cada caso
individual directamente en la columna. En los mens elija Editar > Cambiar flexin.

Columna de tipos

En esta columna, seleccione un diccionario de tipo de la lista desplegable. La lista de tipos se


filtra segn la opcin que haya seleccionado en el panel del rbol de bibliotecas. El primer tipo
de la lista siempre es el tipo por defecto seleccionado en el panel del rbol de bibliotecas. En
los mens elija Editar > Cambiar tipo.

222
Captulo 10

Columna de bibliotecas

En esta columna, se muestra la biblioteca en la que est almacenado el trmino. Puede arrastrar y
soltar un trmino en otro tipo en el panel del rbol de bibliotecas para cambiarlo de biblioteca.
Para aadir un nico trmino a un diccionario de tipo
E En el panel del rbol de bibliotecas, seleccione el diccionario de tipo al que desea aadir el trmino.
E En la lista de trminos del panel central, escriba el trmino en la primera casilla disponible y

defina las opciones que desee para dicho trmino.


Para aadir varios trminos a un diccionario de tipo
E En el panel del rbol de bibliotecas, seleccione el diccionario de tipo al que desea aadir los

trminos.
E En los mens elija Herramientas > Nuevos trminos. Aparecer el cuadro de dilogo Aadir nuevos

trminos.
Figura 10-4
Cuadro de dilogo Aadir nuevos trminos

E Especifique los trminos que desee aadir al diccionario de tipo seleccionado escribindolos o

copiando y pegando el conjunto de trminos. Si especifica varios trminos, deber separarlos


mediante el delimitador definido en el cuadro de dilogo Opciones, o aadir cada trmino en una
lnea nueva. Si desea obtener ms informacin, consulte el tema Opciones de configuracin en el
captulo 2 el p. 17.
E Pulse en Aceptar para aadir los trminos al diccionario. La opcin de coincidencia se establece

automticamente en la opcin por defecto para esta biblioteca de tipo. El cuadro de dilogo se
cierra y los nuevos trminos aparecen en el diccionario.

Forzado de trminos
Si desea que un trmino se asigne a un tipo determinado, puede aadirlo al diccionario de
tipo correspondiente. Sin embargo, si hay varios trminos con el mismo nombre, el motor de
extraccin debe conocer qu tipo se va a utilizar. Por lo tanto, se le indicar que seleccione el tipo
que desea utilizar. A esta accin se le llama forzar un trmino dentro de un tipo. Esta opcin

223
Acerca de los diccionarios de biblioteca

resulta especialmente til cuando se sustituye la asignacin de tipo de un diccionario compilado


(interno y no editable). En general, se recomienda evitar los trminos duplicados.
La accin de forzar no eliminar el resto de las apariciones de este trmino, sino que el motor
de extraccin las pasar por alto. Ms adelante podr cambiar qu aparicin debe utilizarse
mediante el forzado o la anulacin del forzado de un trmino. Es posible que tambin deba forzar
un trmino dentro de un diccionario de tipo cuando aada o actualice una biblioteca pblica.
Figura 10-5
Iconos de estado de Forzar

Puede ver qu trminos estn forzados o cules se pasan por alto en la columna de Forzar, la
segunda columna del panel de trminos. Si aparece un icono de chincheta, significa que esta
aparicin del trmino est forzada. Si aparece un icono de X de color negro, significa que esta
aparicin del trmino se pasar por alto durante la extraccin porque est forzado en algn
otro sitio. Adems, cuando fuerza un trmino, ste aparece del color del tipo dentro del que
se ha forzado. Esto significa que si fuerza un trmino que se encuentra en Tipo 1 y Tipo 2
dentro de Tipo 1, cada vez que vea este trmino en la ventana aparecer con el color de fuente
definido para Tipo 1.
Para cambiar el estado pulse dos veces con el ratn en el icono. Si el trmino aparece en algn
otro lugar, se abre el cuadro de dilogo Resolver conflictos para que pueda seleccionar cul
de las apariciones debe utilizarse.
Figura 10-6
Cuadro de dilogo Resolver conflictos

Cambio de nombre de los tipos


Puede cambiar el nombre de un diccionario de tipo o cambiar otras opciones de diccionario
editando las propiedades de tipo.

224
Captulo 10

Importante:Se recomienda que no utilice espacios en blanco en los nombres de tipo, sobre todo si
hay dos o ms nombres de tipo que empiecen con la misma palabra. Tambin se recomienda no
cambiar el nombre de los tipos en las bibliotecas Core u Opinions, ni cambiar sus atributos de
coincidencia por defecto.
Para cambiar el nombre de un tipo
E En el panel del rbol de bibliotecas, seleccione el diccionario de tipo al que desea cambiar

el nombre.
E Pulse el botn derecho del ratn y elija Propiedades de tipo en el men contextual. Aparecer el

cuadro de dilogo Propiedades de tipo.


Figura 10-7
Cuadro de dilogo Propiedades de tipo

E Escriba el nombre nuevo del diccionario de tipo en el cuadro de texto Nombre.


E Pulse en Aceptar para aceptar el nombre nuevo. El nombre de tipo nuevo aparece visible en el

panel del rbol de bibliotecas.

Cmo mover tipos


Puede arrastrar un diccionario de tipo y soltarlo en otra ubicacin de una biblioteca o en otra
biblioteca del rbol.
Nota: Se recomienda que no mueva los tipos incorporados.
Para cambiar el orden de un tipo en una biblioteca
E En el panel del rbol de bibliotecas, seleccione el diccionario de tipo que desea mover.
E En los mens elija Editar > Subir para subir el diccionario de tipo una posicin en el panel del rbol
de bibliotecas, o Editar > Bajar para bajarlo una posicin.

225
Acerca de los diccionarios de biblioteca

Para mover un tipo a otra biblioteca


E En el panel del rbol de bibliotecas, seleccione el diccionario de tipo que desea mover.
E Pulse el botn derecho del ratn y elija Propiedades de tipo en el men contextual. Aparecer el

cuadro de dilogo Propiedades de tipo. (Tambin puede arrastrar y soltar el tipo en otra biblioteca).
E En el cuadro de lista Aadir a, seleccione la biblioteca a la que desea mover el diccionario de tipo.
E Pulse en Aceptar. El cuadro de dilogo se cierra, y el tipo se encuentra ahora en la biblioteca

que ha seleccionado.

Desactivacin y eliminacin de tipos


Si desea eliminar temporalmente un diccionario de tipo, puede desactivarlo quitndole la marca de
verificacin de la izquierda del nombre del diccionario en el panel del rbol de bibliotecas. Esto
indica que desea conservar el diccionario en la biblioteca, pero que desea que se pasen por alto sus
contenidos durante una comprobacin de conflictos y durante el proceso de extraccin.
Tambin puede eliminar permanentemente los diccionarios de tipo de una biblioteca.
Nota: se recomienda que no elimine los tipos incorporados de las bibliotecas Core y Opinions. Se
recomienda que los desactive.
Para desactivar un diccionario de tipo
E En el panel del rbol de bibliotecas, seleccione el diccionario de tipo que desea desactivar.
E Pulse la barra espaciadora. Se borra la marca de la casilla de verificacin a la izquierda del

nombre del tipo.


Para eliminar un diccionario de tipo
E En el panel del rbol de bibliotecas, seleccione el diccionario de tipo que desea eliminar.
E En los mens elija Editar > Eliminar para eliminar el diccionario de tipo.

Diccionarios de sustitucin/sinnimos
Un diccionario de sustitucin es una recopilacin de trminos que ayuda a agrupar trminos
similares bajo un trmino objetivo. Los diccionarios de sustitucin se administran en el panel
inferior de la pestaa Recursos de la biblioteca. Puede acceder a esta vista en Ver > Editor
de recursos en los mens.
Puede definir dos formas de sustitucin en este diccionario: sinnimos y elementos
opcionales. Puede pulsar en las pestaas de este panel para conmutarlas.
Despus de ejecutar una extraccin en los datos de texto, puede encontrar varios conceptos que
son sinnimos o formas declinadas de otros conceptos. Mediante la identificacin de elementos
opcionales y sinnimos, puede forzar que el motor de extraccin asigne esos trminos a un nico
trmino objetivo.

226
Captulo 10

La sustitucin mediante sinnimos y elementos opcionales reduce el nmero de conceptos en el


panel Resultados extrados, ya que se combinan en conceptos ms significativos y representativos
con recuentos ms frecuentes.
Figura 10-8
Panel del diccionario de sustitucin

Sinnimos

Los sinnimos asocian dos o ms palabras con el mismo significado. Los sinnimos tambin
pueden utilizarse para agrupar trminos con sus abreviaturas, o para agrupar palabras que suelen
escribirse mal con la ortografa correcta. Puede definir estos sinnimos en la pestaa Sinnimos.
Una definicin de sinnimo se compone de dos partes. La primera es un trmino Objetivo, que
es el trmino bajo el cual desea que el motor de extraccin agrupe todos los trminos sinnimos.
A menos que utilice este trmino objetivo como sinnimo de otro trmino objetivo, o a menos
que se excluya, es probable que se convierta en el concepto que aparece en el panel Resultados
extrados. La segunda es la lista de sinnimos que se agrupar bajo el trmino objetivo.
Por ejemplo, si desea que automvil se sustituya por vehculo, el trmino automvil se
considera sinnimo y vehculo se considera el trmino objetivo.
Puede escribir cualquier palabra en la columna Sinnimos, pero si dicha palabra no se encuentra
durante la extraccin y el trmino tena una opcin de coincidencia con Completo, no puede
realizarse la sustitucin. Sin embargo, no es necesario extraer el trmino objetivo para que se
agrupen los sinnimos bajo este trmino.
Figura 10-9
Diccionario Sustitucin, pestaa Sinnimos

227
Acerca de los diccionarios de biblioteca

Elementos opcionales

Los Elementos opcionales identifican palabras opcionales de un trmino compuesto que puede
pasarse por alto durante la extraccin para poder mantener juntos los trminos parecidos aunque
aparezcan con ligeras diferencias en el texto. Los elementos opcionales son palabras simples que,
si se eliminan de un trmino compuesto, pueden crear una coincidencia con otro trmino. Estas
palabras simples pueden aparecer en cualquier lugar dentro del trmino compuesto (al principio,
en el centro o al final). Puede definir estos elementos opcionales en la pestaa Opcional.
Por ejemplo, para agrupar los trminos ibm e ibm corp juntos, debe declarar que corp se
considere un elemento opcional en este caso. En otro ejemplo, si designa el trmino acceso
como elemento opcional y durante la extraccin se encuentran los trminos velocidad de
acceso a internet y velocidad de internet, se agruparn juntos bajo el trmino que
aparezca con ms frecuencia.
Figura 10-10
Diccionario Sustitucin, pestaa Opcional

Definicin de sinnimos
En la pestaa Sinnimos, puede especificar una definicin de sinnimo en la lnea vaca de la parte
superior de la tabla. Empiece definiendo el trmino objetivo y sus sinnimos. Tambin puede
seleccionar la biblioteca en la que desea que se guarde esta definicin. Durante la extraccin,
todas las apariciones de los sinnimos se agruparn bajo el trmino objetivo de la extraccin final.
Si desea obtener ms informacin, consulte el tema Adicin de trminos el p. 219.
Por ejemplo, si los datos de texto incluyen un gran volumen de informacin sobre
telecomunicaciones, puede que tenga estos trminos: telfono celular, telfono
inalmbrico y telfono mvil. En este ejemplo, puede definir celular y mvil como
sinnimos de inalmbrico. Si define estos sinnimos, cada aparicin extrada de telfono
celular y de telfono mvil se considerar como el mismo trmino que telfono
inalmbrico y se mostrarn juntos en la lista de trminos.
Cuando est creando sus diccionarios de tipo, puede especificar un trmino y luego pensar en
tres o cuatro sinnimos del mismo. En ese caso, puede escribir todos los trminos y luego el
trmino objetivo en el diccionario de sustitucin, y a continuacin arrastrar los sinnimos.

228
Captulo 10

La sustitucin de sinnimos tambin se aplica a las formas declinadas (como los plurales) del
sinnimo. En funcin del contexto puede imponer lmites en la forma en que se sustituyen los
trminos. Pueden utilizarse determinados caracteres para aplicar lmites sobre el proceso de la
sinonimia:

Signo de exclamacin (!). Si hay un signo de exclamacin justo delante del sinnimo
!sinnimo, indica que las formas declinadas del sinnimo no se sustituirn por el

trmino objetivo. Sin embargo, un signo de exclamacin justo delante del trmino objetivo
!trmino_objetivo, significa que no desea que no se apliquen ms sustituciones a

ninguna parte del trmino objetivo compuesto ni a ninguna variante.

Asterisco (*). Un asterisco situado justo despus de un sinnimo, como sinnimo*,

significa que desea que esta palabra se sustituya por el trmino objetivo. Por ejemplo, si ha
definido administrar* como sinnimo y administracin como objetivo, el trmino
administradores asociados se sustituir por el trmino objetivo administracin
asociada. Tambin puede aadir un espacio y un asterisco detrs de la palabra
(sinnimo*), por ejemplo, internet *. Si ha definido el objetivo como internet
y los sinnimos como internet * * y web *, los trminostarjeta de acceso a
internet y portal web se sustituirn por internet. No puede comenzar una palabra o
una cadena con el comodn de asterisco en este diccionario.

Intercalacin (^). Un signo de intercalacin y un espacio justo delante del sinnimo, como ^
sinnimo, significa que la agrupacin de sinnimos se aplica solamente cuando el trmino
empieza con el sinnimo. Por ejemplo, si define ^ salario como sinnimo e ingresos
como objetivo, y se extraen ambos trminos, se agruparn juntos bajo el trmino ingresos.
Sin embargo, si se extraen los trminos subir salario e ingresos, no se agruparn
juntos, puesto que subir salario no empieza por salario. Debe colocarse un espacio

entre este smbolo y el sinnimo.

Signo de dlar ($). Un espacio y un smbolo de dlar justo delante del sinnimo, como
sinnimo $, significa que la agrupacin de sinnimos se aplica solamente cuando el trmino
termina con el sinnimo. Por ejemplo, si define salario $ como sinnimo e ingresos
como objetivo, y se extraen ambos trminos, se agruparn juntos bajo el trmino ingresos.
Sin embargo, si se extraen los trminos salario mnimo e ingresos, no se agruparn
juntos porque salario mnimo no termina con salario. Debe colocarse un espacio

entre este smbolo y el sinnimo.

Smbolo de intercalacin (^) y smbolo de dlar ($). Si los smbolos de intercalacin y de dlar

se utilizan juntos, como


^ sinnimo $, un trmino solo coincidir con el sinnimo si se trata de una coincidencia
exacta. Esto significa que no puede aparecer ninguna palabra delante ni detrs del sinnimo
del trmino extrado para que pueda realizarse la agrupacin de sinnimos. Por ejemplo,
puede definir ^ van $ como sinnimo e ir como objetivo de manera que solo van se agrupe
con ir, mientras que marie van guerin permanecera sin cambios. Adems, siempre que
defina un sinnimo utilizando los smbolos de intercalacin y de dlar y esta palabra aparezca
en cualquier lugar de texto de origen, el sinnimo se extraer automticamente.

229
Acerca de los diccionarios de biblioteca
Figura 10-11
Diccionario Sustitucin, pestaa Sinnimos con ejemplo

Para aadir una entrada de sinnimo


E Con el panel de sustitucin visualizado, pulse en la pestaa Sinnimos en el ngulo inferior

izquierdo.
E En la lnea vaca de la parte superior de la tabla, escriba el trmino objetivo en la columna

Objetivos. El trmino objetivo que ha escrito aparece en color. Este color representa el tipo en el
que el trmino aparece o se fuerza, si se da el caso. Si el trmino aparece en negro, significa que
no est en ningn diccionario de tipo.
E Pulse en la segunda casilla a la derecha del objetivo y escriba el conjunto de sinnimos. Separe

cada entrada utilizando el delimitador global tal como est definido en el cuadro de dilogo
Opciones. Si desea obtener ms informacin, consulte el tema Opciones de configuracin en el
captulo 2 el p. 17. Los trminos que especifique aparecern en color. Este color representa el
tipo en el que aparece el trmino. Si el trmino aparece en negro, significa que no est en ningn
diccionario de tipo.
E Pulse en la ltima casilla para seleccionar la biblioteca en la que desea almacenar esta definicin

de sinnimo.
Nota: estas instrucciones indican cmo realizar cambios en la Editor de recursos vista. Tenga
en cuenta que este tipo de ajuste puede hacerlo directamente en el panel Resultados extrados o
en el panel Datos. Si desea obtener ms informacin, consulte el tema Refinamiento de los
resultados de la extraccin en el captulo 5 el p. 86.

Definicin de elementos opcionales


En la pestaa Opcional, puede definir elementos opcionales para la biblioteca que desee. Estas
entradas se agrupan juntas para cada biblioteca. Tan pronto como se aade una biblioteca al panel
del rbol de bibliotecas, se aade una lnea vaca de elemento opcional en la pestaa Opcional.
Todas las entradas pasan a estar en minsculas automticamente. El motor de extraccin har
coincidir las entradas en maysculas y minsculas del texto.

230
Captulo 10
Figura 10-12
Diccionario Sustitucin, pestaa Opcional

Nota: Los trminos se separan utilizando el delimitador definido en el cuadro de dilogo


Opciones. Si desea obtener ms informacin, consulte el tema Opciones de configuracin en el
captulo 2 el p. 17. Si el elemento opcional que va a especificar incluye el mismo delimitador
como parte del trmino, deber colocar una barra invertida delante.
Para aadir una entrada
E Con el panel de sustitucin visualizado, pulse en la pestaa Opcional en el ngulo inferior

izquierdo del editor.


E Pulse en la casilla de la columna de Elementos opcionales correspondiente a la biblioteca a la que

desea aadir esta entrada.


E Especifique el elemento opcional. Separe cada entrada utilizando el delimitador global tal como

est definido en el cuadro de dilogo Opciones. Si desea obtener ms informacin, consulte el


tema Opciones de configuracin en el captulo 2 el p. 17.

Desactivacin y eliminacin de sustituciones


Puede eliminar una entrada de forma temporal desactivndola del diccionario. Al desactivar una
entrada, sta se pasar por alto durante la extraccin.
Tambin puede eliminar las entradas obsoletas en el diccionario de sustitucin.
Para desactivar una entrada
E En el diccionario seleccione la entrada que desea desactivar.
E Pulse la barra espaciadora. Se borra la marca de la casilla de verificacin a la izquierda de

la entrada.
Nota: Tambin puede anular la seleccin de la casilla de verificacin a la izquierda para
desactivarla.
Para eliminar una entrada de sinnimo
E En el diccionario seleccione la entrada que desea eliminar.

231
Acerca de los diccionarios de biblioteca
E En los mens elija Editar > Eliminar o pulse la tecla Supr del teclado. La entrada desaparece del

diccionario.
Para eliminar una entrada de elemento opcional
E En el diccionario pulse dos veces en la entrada que desea eliminar.
E Elimine manualmente el trmino.
E Pulse Intro para aplicar el cambio.

Diccionarios de exclusin
Un diccionario de exclusin es una lista de palabras, frases o cadenas parciales. Se pasarn por
alto o se excluirn de la extraccin los trminos que tengan alguna coincidencia o contengan una
entrada en el diccionario de exclusin. Los diccionarios de exclusin se administran en el panel
derecho del editor. Por lo general, los trminos que aada a esta lista sern palabras o frases de
relleno que se utilizan en el texto para conferir continuidad, pero que no aportan informacin
relevante al texto y que adems pueden cargar innecesariamente los resultados de la extraccin. Si
aade estos trminos al diccionario de exclusin, tendr la seguridad de que no se extraern nunca.
Los diccionarios de exclusin se administran en el panel superior derecho de la pestaa Recursos
de la biblioteca del editor. Puede acceder a esta vista en Ver > Editor de recursos en los mens.
Figura 10-13
Panel del diccionario de exclusin

En el diccionario de exclusin puede introducir una palabra, frase o cadena parcial en la lnea
vaca en la parte superior de la tabla. Puede aadir cadenas de caracteres al diccionario de
exclusin como una o ms palabras o incluso como palabras parciales utilizando el asterisco como
comodn. Las entradas declaradas en el diccionario de exclusin se utilizarn para impedir que los
conceptos se extraigan Si una entrada tambin se declara en algn otro lugar de la interfaz, como
en un diccionario de tipo, se muestra con un signo de tachado en los otros diccionarios, lo que
indica que actualmente est excluida. Esta cadena no tiene que aparecer en los datos de texto ni
declararse como parte de ningn diccionario de tipo que vaya a aplicarse.
Nota: Si aade un concepto al diccionario de exclusin que tambin acte como objetivo de una
entrada de sinnimo, el objetivo y todos sus sinnimos tambin se excluirn. Si desea obtener ms
informacin, consulte el tema Definicin de sinnimos el p. 227.

232
Captulo 10

Uso de comodines (*)

puede utilizar el comodn de asterisco para indicar que desea tratar la entrada de exclusin como
una cadena parcial. Todos los trminos el motor de extraccin que encuentre con una palabra que
empiece o termine por una cadena especificada en el diccionario de exclusin se excluirn de la
extraccin final. Sin embargo, existen dos casos en los que el uso de comodines no est permitido:

Carcter de guin (-) precedido por un asterisco, como *-

Carcter de apstrofe (-) precedido por un asterisco, como *s

Tabla 10-2
Ejemplos de entradas de exclusin

Entrada
palabra

Ejemplo
siguiente

frase

por ejemplo

parciales

copyright*

parciales

*ware

Resultados
No se extraer ningn concepto (ni sus trminos) si contienen la palabra
siguiente.
No se extraer ningn concepto (ni sus trminos) si contienen la frase por
ejemplo.
Se excluirn los conceptos (o sus trminos) que coincidan con, o que
contengan, las variaciones de la palabra copyright, como copyrighted,
copyrighting, copyrights o copyright 2010.
Se excluirn los conceptos (o sus trminos) que coincidan con, o que
contengan, las variaciones de la palabra ware, como freeware, shareware,
software o hardware.

Para aadir entradas


E En la lnea vaca en la parte superior de la tabla, escriba un trmino. El trmino que especifique

aparecer en color. Este color representa el tipo en el que aparece el trmino. Si el trmino aparece
en negro, significa que no est en ningn diccionario de tipo.
Para desactivar entradas

Puede eliminar temporalmente una entrada desactivndola en el diccionario de exclusin. Al


desactivar una entrada, sta se pasar por alto durante la extraccin.
E En el diccionario de exclusin seleccione la entrada que desea desactivar.
E Pulse la barra espaciadora. Se borra la marca de la casilla de verificacin a la izquierda de

la entrada.
Nota: Tambin puede anular la seleccin de la casilla de verificacin a la izquierda para
desactivarla.
Para eliminar entradas

Puede eliminar las entradas que ya no necesite en el diccionario de exclusin.


E En el diccionario de exclusin seleccione la entrada que desea eliminar.
E En los mens elija Editar > Eliminar. La entrada desaparece del diccionario.

Captulo

Acerca de los recursos avanzados

11

Adems de los diccionarios de tipo, de exclusin y de sustitucin, tambin puede trabajar con una
serie de opciones de recursos avanzados como configuracin de agrupacin difusa o definiciones
de tipo no lingstico. Puede trabajar con estos recursos en la pestaa Recursos avanzados en la
vista Editor de recursos. Tambin puede guardar los cambios como valores por defecto para todos
los proyectos, o recuperar el contenido original.
En la pestaa Recursos avanzados puede editar la siguiente informacin:

Agrupacin difusa (excepciones). Se utiliza para excluir parejas de palabras del algoritmo

de agrupacin difusa (correccin de error ortogrfico). Si desea obtener ms informacin,


consulte el tema Agrupacin difusa el p. 236.

Entidades no lingsticas. Se utiliza para activar y desactivar las entidades no lingsticas que

pueden extraerse, as como las expresiones normales y las reglas de normalizacin que se
aplican durante la extraccin. Si desea obtener ms informacin, consulte el tema Entidades
no lingsticas el p. 237.

Gestin de idioma. Se utiliza para declarar los mtodos especiales para estructurar frases

(patrones de extraccin y definiciones forzadas) y para utilizar abreviaturas en el idioma


seleccionado. Si desea obtener ms informacin, consulte el tema Gestin de idiomas el p.
242.

Copyright IBM Corporation 2004, 2011.

233

234
Captulo 11
Figura 11-1
Recursos avanzados

Nota: Puede utilizar la barra de herramientas Buscar/Reemplazar para buscar informacin


rpidamente o para realizar cambios globales en una seccin. Si desea obtener ms informacin,
consulte el tema Reemplazo el p. 235.
Para Editar recursos avanzados
E Localice y seleccione la seccin de recursos que desea editar. Los contenidos aparecern en el

panel derecho.
E Utilice el men o los botones de la barra de herramientas para cortar, copiar o pegar el contenido,

si es preciso.
E Edite el archivo o archivos que desea cambiar utilizando las reglas de formato de esta seccin. Los

cambios se guardan en cuanto los lleva a cabo. Utilice las flechas de deshacer o rehacer de la barra
de herramientas para invertir la accin sobre los cambios anteriores.

Bsquedas
En algunos casos, puede que necesite localizar informacin rpidamente en una seccin
determinada. Con la funcin Buscar, puede encontrar rpidamente una regla especfica. Para
buscar informacin en una seccin, puede utilizar la barra de herramientas Buscar.

235
Acerca de los recursos avanzados
Figura 11-2
Barra de herramientas Buscar

Para utilizar la funcin Buscar


E Localice y seleccione la seccin de recursos que desea buscar. Los contenidos aparecen en

el panel derecho del editor.


E En los mens elija Editar > Buscar. La barra de herramientas Buscar aparecer en el ngulo

superior derecho del cuadro de dilogo Editar recursos avanzados.


E Escriba la cadena de palabras que desea buscar en el cuadro de texto. Puede utilizar los botones de

la barra de herramientas para controlar las maysculas/minsculas, la coincidencia parcial y la


direccin de la bsqueda.
E Pulse en Buscar para iniciar la bsqueda. Si se encuentra una coincidencia, el texto se resalta en

la ventana.
E Pulse en Buscar otra vez para buscar la siguiente coincidencia.

Reemplazo
En algunos casos, puede que necesite realizar actualizaciones globales en los recursos avanzados.
La funcin Reemplazar puede ayudarle a realizar actualizaciones uniformes en el contenido.
Para utilizar la funcin Reemplazar
E Localice y seleccione la seccin de recursos que desea buscar y reemplazar. Los contenidos

aparecen en el panel derecho del editor.


E En los mens elija Editar > Reemplazar. Aparecer el cuadro de dilogo Reemplazar.
Figura 11-3
Cuadro de dilogo Reemplazar

E En el cuadro de texto Buscar, escriba la cadena de palabras que desea buscar.


E En el cuadro de texto Reemplazar por, escriba la cadena que desea utilizar en lugar del texto de

bsqueda.
E Seleccione Coincidir slo palabra completa si desea buscar o reemplazar nicamente palabras

completas.

236
Captulo 11
E Seleccione Coincidir maysculas y minsculas si desea buscar o reemplazar nicamente palabras

que coincidan con las maysculas y minsculas exactamente.


E Pulse en Buscar siguiente para buscar una coincidencia. Si se encuentra una coincidencia, el texto
se resalta en la ventana. Si no desea reemplazar esta coincidencia, pulse en Buscar siguiente de

nuevo hasta que encuentre una coincidencia que desee reemplazar.


E Pulse en Reemplazar para sustituir la coincidencia seleccionada.
E Pulse en Reemplazar para sustituir todas las coincidencias de la seccin. Se abrir un mensaje

indicando el nmero de reemplazos realizados.


E Cuando haya terminado de reemplazar, pulse en Cerrar. El cuadro de dilogo se cierra.

Nota: Si ha cometido un error de reemplazo, puede deshacer la accin cerrando el cuadro de


dilogo y eligiendo Editar > Deshacer en los mens. Deber realizar esta accin una vez por cada
cambio que desee deshacer.

Agrupacin difusa
En el dilogo Configuracin de extraccin, si selecciona Acomodar la ortografa a un lmite mnimo
de caracteres raz de:, significa que ha activado el algoritmo de agrupacin difusa.
La agrupacin difusa ayuda a agrupar las palabras que comnmente se escriben mal o que
tienen una ortografa similar pasando temporalmente por alto todas las vocales (excepto la
primera) o consonantes dobles o triples de las palabras extradas, y luego comparndolas para
comprobar si son las mismas. Durante el proceso de extraccin, la funcin de agrupacin difusa
se aplicar a los trminos extrados, y los resultados se comparan para determinar si se han
encontrado coincidencias. En caso afirmativo, los trminos originales se agrupan juntos en la lista
de extraccin final. Se agrupan bajo el trmino que aparece ms veces en los datos.
Nota: Si los dos trminos de comparacin estn asignados a tipos diferentes, excluyendo el tipo
<Unknown>, la tcnica de agrupacin difusa no se aplicar a esta pareja de trminos. En otras
palabras, para poder aplicar la tcnica, los trminos deben pertenecer al mismo tipo o al tipo
<Unknown>.
Si ha activado esta funcin y descubre que dos palabras con ortografa similar se han agrupado
incorrectamente, puede excluir dichas palabras de la agrupacin difusa. Para ello escriba las
parejas mal agrupadas en la seccin Excepciones de la pestaa Recursos avanzados. Si desea
obtener ms informacin, consulte el tema Acerca de los recursos avanzados el p. 233.
En el ejemplo siguiente se muestra el proceso de la agrupacin difusa. Si se ha activado la
agrupacin difusa, estas palabras parecen ser iguales y se emparejan de la forma siguiente:
color -> colr
colour -> colr

mountain -> montn


montana -> montn

modeling -> modlng


modelling -> modlng

furniture -> furntr


furnature -> furntr

En el ejemplo anterior, probablemente quiera impedir que salida y salud se agrupen juntas.
Por lo tanto, puede incluir estas palabras en la seccin Excepciones de la siguiente manera:
salida

salud

237
Acerca de los recursos avanzados

Importante: En algunos casos, las excepciones de agrupacin difusa no finalizan el proceso de


emparejamiento de 2 palabras porque se han aplicado algunas reglas de sinnimos. En ese caso,
puede intentar introducir sinnimos usando el comodn de signo de exclamacin (!) para impedir
que las palabras se hagan sinnimas en los resultados. Si desea obtener ms informacin, consulte
el tema Definicin de sinnimos en el captulo 10 el p. 227.
Reglas de formato para excepciones de agrupacin difusa

Defina solo una pareja de excepcin por lnea.

Utilice palabras simples o compuestas.

Utilice solamente caracteres en minsculas para las palabras. Las palabras en maysculas
se pasarn por alto.

Utilice un tabulador para separar cada palabra de una pareja.

Entidades no lingsticas
Cuando trabaja con determinados tipos de datos, puede ser de gran inters extraer fechas, nmeros
de la seguridad social, porcentajes u otras entidades no lingsticas. Estas entidades estn
explcitamente declaradas en el archivo de configuracin, donde puede activar o desactivar las
entidades. Si desea obtener ms informacin, consulte el tema Configuracin el p. 241. Con el
fin de optimizar el rendimiento del motor de extraccin, la entrada que se realiza en el proceso
no lingstico se normaliza para agrupar entidades similares segn los formatos predefinidos. Si
desea obtener ms informacin, consulte el tema Normalizacin el p. 240.
Nota: Puede activar y desactivar la extraccin de entidades no lingsticas en la configuracin de
extraccin.
Entidades no lingsticas disponibles

Pueden extraerse las entidades no lingsticas de la tabla siguiente. El nombre del tipo est entre
parntesis.
Direcciones (<Address>)
Aminocidos (<Aminoacid>)
Monedas (<Currency>)
Fechas (<Date>)
Retraso (<Delay>)
Dgitos (<Digit>)
Direcciones de correo electrnico
(<email>)
Direcciones de HTTP/URL (<url>)
Direccin IP (<IP>)

Organizaciones (<Organization>)
Porcentajes (<Percent>)
Productos (<Product>)
Protenas (<Gene>)
Nmeros de telfono (<PhoneNumber>)
Horas (<Time>)
Nmeros de la seguridad social (<SocialSecurityNumber>)
Pesos y medidas (<Weights-Measures>)

238
Captulo 11

Limpieza del texto para proceso

Antes de que se realice la extraccin de entidades no lingsticas, el texto de entrada se limpia.


Durante este paso, se realizan los cambios temporales siguientes para que las entidades no
lingsticas puedan identificarse y extraerse como tales:

Cualquier secuencia de dos o ms espacios se sustituye por un espacio nico.

Las tabulaciones se sustituyen por espacios.

Los caracteres de secuencia o caracteres nicos de final de lnea se sustituyen por un espacio,
mientras que las secuencias mltiples de final de lnea se marcan como final de un prrafo.
El final de lnea puede indicarse mediante retornos de carro (CR) y cambio de lnea (LF),
o incluso ambos a la vez.

Los cdigos HTML y XML se pasan por alto temporalmente y se ignoran.

Definiciones de expresiones regulares


Cuando se extraen entidades no lingsticas, puede editar o aadir a la expresin regular aquellas
definiciones que se utilizan para identificar las expresiones regulares. Esto se hace en la seccin
Definiciones de expresiones regulares de la pestaa Recursos avanzados. Si desea obtener ms
informacin, consulte el tema Acerca de los recursos avanzados el p. 233.
El archivo est dividido en varias secciones. La primera seccin se llama [macros]. Adems
de dicha seccin, puede existir una seccin adicional para cada entidad no lingstica. Puede
aadir secciones a este archivo. En cada seccin, las reglas estn numeradas (regexp1, regexp2,
etc.). Estas reglas deben numerarse secuencialmente desde 1n. Toda interrupcin en la
numeracin har que el proceso de este archivo quede suspendido.
En determinados casos, una entidad puede depender del idioma. Se considera que una entidad
depende del idioma si toma un valor que no sea 0 como parmetro de idioma en el archivo de
configuracin. Si desea obtener ms informacin, consulte el tema Configuracin el p. 241.
Cuando una entidad depende del idioma, debe utilizarse el idioma como prefijo del nombre de
seccin, como en [ingls/PhoneNumber]. Esta seccin contendr reglas que se apliquen solo
a los nmeros de telfono ingleses si se asigna el valor de 2 al idioma de la entidad PhoneNumber.
Importante: Si realiza cambios en este archivo o en cualquier otro en el editor, y el motor de

extraccin deja de funcionar como se esperaba, utilice la opcin Restablecer originales en la barra
de herramientas para restaurar el archivo con el contenido original enviado con el producto. Es
necesario estar familiarizado con las expresiones regulares para trabajar con este archivo. Si
necesita ayuda adicional en esta rea, pngase en contacto con IBM Corp. para obtener ayuda.
Caracteres especiales. [] {} () \ * + ? | ^ $

Todos los caracteres coinciden entre s excepto los caracteres especiales siguientes, que se utilizan
para un propsito especfico en las expresiones: .[{()\*+?|^$ Para utilizar estos caracteres
como tales, deben ir precedidos por una barra inclinada invertida (\)en la definicin:
Por ejemplo, si intentaba extraer direcciones web, el carcter de punto y aparte es muy
importante en la entidad, por lo que debe colocar una barra inclinada invertida, as:
www\.[a-z]+\.[a-z]+

239
Acerca de los recursos avanzados

Operadores de repeticiones y cuantificadores ? + * {}

Para que las definiciones sean ms flexibles, puede utilizar varios comodines que sean estndares
en las expresiones regulares. Son * ? +

Asterisco * indica que hay cero o ms elementos de la cadena precedente.


Por ejemplo, ab*c coincide con ac, abc, abbbc, y etc.

El signo ms + indica que hay uno o ms elementos de la cadena precedente.


Por ejemplo, ab+c coincide con abc, abbc, abbbc, pero no con ac.

El signo de interrogacin ? indica que hay cero o ms elementos de la cadena precedente.


Por ejemplo, model?ado coincide con modelado y con modelado.

Limitar la repeticin mediante llaves {} indica los lmites de la repeticin. Por ejemplo:
E [0-9]{n} coincide con un dgito que se repite exactamente n veces.
Por ejemplo, [0-9]{4} coincide con 1998, pero no con 33 ni con 19983.
E [0-9]{n} coincide con un dgito que se repite n o ms veces.
Por ejemplo, [0-9]{3,} coincide con 199 o con 1998, pero no con 19.
E [0-9]{n,m} coincide con un dgito que se repite entre n y m veces, inclusive.
Por ejemplo, [0-9]{3,5} coincide con 199, 1998 o19983, pero no con 19 ni 199835.

Guiones y espacios opcionales

En algunos casos, puede que necesite incluir un espacio opcional en una definicin. Por ejemplo,
si desea extraer monedas como pesos uruguayos, peso uruguayo, pesos uruguay, peso
uruguay, pesos o peso, tendr que afrontar el hecho de que puede haber dos palabras
separadas por un espacio. En este caso, esta definicin se escribir como (uruguayo |uruguay
)?pesos?. Puesto que uruguayo o uruguay van seguidos de un espacio cuando se utilizan con
pesos/peso, el espacio opcional debe definirse en la secuencia opcional (uruguayo |uruguay
). Si no se haba definido el espacio en la secuencia opcional, como (uruguayo|uruguay)?
pesos?, no coincidira con pesos o peso, puesto que es necesario el espacio.
Si busca una serie de objetos que incluyen guiones (-) en una lista, el guin debe estar definido
al final. Por ejemplo, si busca una coma (,) o un guin (-), utilice [,-] pero nunca [-,].
Orden de las cadenas en listas y macros

Siempre debe definir la secuencia ms larga antes que la ms corta; de lo contrario, nunca se
detectar la ms larga, puesto que la coincidencia se producir en la secuencia ms corta. Por
ejemplo, si busca las cadenas telfono o tele, entonces telfono debe definirse antes que
tele. As pues, (telfono|tele) y no (tele|telfono). Esto tambin se aplica a las
macros, puesto que estas son listas de cadenas.
Orden de las reglas en la seccin de definicin

Defina una regla por lnea. En cada seccin, las reglas estn numeradas (regexp1, regexp2, etc.).
Estas reglas deben numerarse secuencialmente desde 1n. Toda interrupcin en la numeracin
har que el proceso de este archivo quede suspendido. Para desactivar una entrada, coloque un
smbolo de nmero (#) al principio de cada lnea que se utiliza para definir la expresin regular.
Para activar una entrada, elimine el smbolo de nmero (#) del principio de la lnea.

240
Captulo 11

En cada seccin, las reglas ms especficas deben definirse antes que las ms generales para
asegurar un proceso apropiado. Por ejemplo, si busca una fecha con el formato mes ao y con el
formato mes, la regla mes ao debe definirse antes que la regla mes. Este es un ejemplo de
cmo debe definirse:
#@# Enero 1932
regexp1=$(MONTH),? [0-9]{4}
#@# Enero
regexp2=$(MONTH)

y no
#@# Enero 1932
regexp1=$(MONTH)
#@# enero 1932
regexp2=$(MONTH),? [0-9]{4}

Uso de macros en las reglas

Cuando se utiliza una secuencia especfica en varias reglas, puede utilizar una macro. As pues, si
necesita cambiar la definicin de esta secuencia, deber cambiarla solo una vez, y no es necesario
que lo haga en todas las reglas a las que haga referencia. Por ejemplo, imagine que tiene la
macro siguiente:
MONTH=((enero|febrero|marzo|abril|mayo|junio|julio|agosto|septiembre|octubre|
noviembre|diciembre)|(ene|feb|mar|abr|may|jun|jul|ago|sep|oct|nov|dic)(\.)?)

Siempre que haga referencia al nombre de la macro, deber estar entre $(), por ejemplo:
regexp1=$(MONTH)

Todas las macros deben definirse en la seccin [macros].

Normalizacin
Cuando se extraen entidades no lingsticas, las entidades que se encuentran se normalizan para
agrupar entidades parecidas segn los formatos predefinidos. Por ejemplo, los smbolos de
moneda y sus equivalentes en palabras se consideran lo mismo. Las entradas de normalizacin
se almacenan en la seccin Normalizacin de la pestaa Recursos avanzados. Si desea obtener
ms informacin, consulte el tema Acerca de los recursos avanzados el p. 233. El archivo est
dividido en varias secciones.
Importante: Este archivo solo deben utilizarlo usuarios experimentados. Es altamente improbable

que necesite cambiar este archivo. Si necesita ayuda adicional en esta rea, pngase en contacto
con IBM Corp. para obtener ayuda.
Reglas de formato para la normalizacin

Aada solo una entrada de normalizacin por lnea.

Respete estrictamente las secciones de este archivo. No pueden aadirse secciones nuevas.

Para desactivar una entrada, coloque un smbolo de nmero (#) al principio de la lnea. Para
activar una entrada, elimine el smbolo de nmero (#) del principio de la lnea.

241
Acerca de los recursos avanzados

Configuracin
Puede activar y desactivar los tipos de entidades no lingsticas que desee extraer en el archivo de
configuracin de entidades no lingsticas. Al desactivar las entidades que no necesita, puede
disminuir el tiempo de proceso necesario. Esto se hace en la seccin Configuracin de la pestaa
Recursos avanzados. Si desea obtener ms informacin, consulte el tema Acerca de los recursos
avanzados el p. 233. Si no se activa la extraccin no lingstica, el motor de extraccin lee este
archivo de configuracin durante el proceso de extraccin para determinar cules son los tipos de
entidades no lingsticas que deben extraerse.
La sintaxis de este archivo es la siguiente:
#nombre<TAB>Idioma<TAB>Cdigo
Tabla 11-1
Sintaxis del archivo de configuracin

Etiqueta de columna Descripcin


#nombre
Trmino por el que se har referencia a las entidades no lingsticas en los otros
dos archivos requeridos para la extraccin de entidades no lingsticas. Los
nombres que se utilizan aqu son sensibles a maysculas y minsculas.
Idioma
El idioma de los registros. Se recomienda seleccionar el idioma especfico; sin
embargo, existe una opcin Cualquiera. Estas son las opciones posibles: 0 =
Cualquiera que se utilice cuando regexp no es especfico de un idioma y puede
utilizarse en varias plantillas con idiomas diferentes, por ejemplo, direcciones
IP/URL/correo electrnico; 1 = Francs; 2 = Ingls; 4 = Alemn; 5 = Espaol; 6 =
Holands; 8 = Portugus; 10 = Italiano.
Cdigo
Cdigo de categora lxica. La mayora de las entidades tomar un valor de s
excepto en unos pocos casos. Entre los posibles valores se incluyen: s = palabra
vaca; a = adjetivo; n = sustantivo. Si est activado, las entidades no lingsticas
se extraen en primer lugar y se aplican los patrones de extraccin para identificar
su rol en un contexto ms amplio. Por ejemplo, a los porcentajes se les asigna
un valor a. Supongamos que se extrae 30% como entidad no lingstica. Se
identificara como un adjetivo. As pues, si el texto contiene 30% aumento
salario, la entidad no lingstica 30% se ajusta al patrn de categora lxica
ann (adjetivo sustantivo sustantivo).

Orden en la definicin de entidades

El orden en que se declaran las entidades en este archivo es relevante y afecta a la forma en que
se extraern. Se aplican en el orden de la lista. Si cambia el orden, cambiar el resultado. Las
entidades no lingsticas ms especficas deben definirse antes que las ms generales.
Por ejemplo, la entidad no lingstica Aminocido se define mediante:
regexp1=($(AA)-?$(NUM))

donde $(AA) corresponde a


(ala|arg|asn|asp|cys|gln|glu|gly|his|ile|leu|lys|met|phe|pro|ser), que
son secuencias especficas de tres letras que corresponden a aminocidos especficos.
Por otro lado, la entidad no lingstica Gen es ms general y se define mediante:
regexp1=p[0-9]{2,3}
regexp2=[a-z]{2,4}-?[0-9]{1,3}-?[r]

242
Captulo 11
regexp3=[a-z]{2,4}-?[0-9]{1,3}-?p?

Si Gen se define antes que Aminocido en la seccin Configuracin, Aminocido nunca


tendr una coincidencia porque regexp3 en Gen siempre coincidir primero.
Reglas de formato para la configuracin

Utilice un tabulador para separar cada entrada en una columna.

No elimine ninguna lnea.

Respete la sintaxis que se muestra en la tabla anterior.

Para desactivar una entrada, coloque un smbolo de nmero (#) al principio de la lnea. Para
activar una entidad, elimine el smbolo de nmero (#) del principio de la lnea.

Gestin de idiomas
Todos los idiomas actuales tienen maneras especiales de expresar ideas, estructurar frases y
utilizar abreviaturas. En la seccin Gestin de idioma, puede editar patrones de extraccin, forzar
definiciones para dichos patrones y declarar abreviaturas para el idioma que ha seleccionado
en la lista desplegable de Idiomas.

Patrones de extraccin

Definiciones forzadas

Abreviaturas

Patrones de extraccin
Cuando se extrae informacin de los registros, el motor de extraccin aplica un conjunto de
patrones de categoras lxicas a una pila de palabras del texto para identificar los trminos
candidatos (palabras y frases) para la extraccin. Puede aadir o modificar los patrones de
extraccin.
Las categoras lxicas incluyen elementos gramaticales, como sustantivos, adjetivos,
participios, determinantes, preposiciones, conjunciones, nombres propios, iniciales y partculas.
Un patrn de extraccin de categoras lxicas est compuesto por una serie de estos elementos.
En los productos de minera de texto de IBM Corp., cada categora lxica est representada
por un nico carcter para facilitar la definicin de sus patrones. Por ejemplo, un adjetivo est
representado por la letra en minscula a. Por defecto aparece el conjunto de cdigos soportados al
principio de cada seccin de patrones de extraccin por defecto, junto con una serie de patrones y
ejemplos de cada patrn, para facilitarle la comprensin de cada cdigo que se utilice.
Reglas de formato para los patrones de extraccin

Un patrn por lnea.

Utilice # al principio de una lnea para desactivar un patrn.

El orden en el que aparecen los patrones de extraccin es muy importante, porque el motor de
extraccin lee una secuencia determinada de palabras solo una vez, y se le asigna al primer patrn
de extraccin para el que el motor encuentra una coincidencia.

243
Acerca de los recursos avanzados

Definiciones forzadas
Cuando se extrae informacin de los registros, el motor de extraccin explora el texto e identifica
la categora lxica de cada palabra que encuentra. En algunos casos, una palabra puede ajustarse
a varios roles diferentes en funcin del contexto. Si desea forzar una palabra para que tome un
rol de categora lxica o para excluirla completamente del proceso, puede hacerlo en la seccin
Definicin forzada de la pestaa Recursos avanzados. Si desea obtener ms informacin, consulte
el tema Acerca de los recursos avanzados el p. 233.
Para forzar un rol de categora lxica para una palabra determinada, debe aadir una lnea en
esta seccin empleando esta sintaxis:
trminos:cdigo
Tabla 11-2
Descripcin de la sintaxis

Entrada
trminos
cdigo

Descripcin
Nombre de trmino.
Cdigo de un solo carcter que representa el rol de categora lxica. Puede enumerar hasta
seis cdigos de categoras lxicas diferentes por unitrmino. Adems puede impedir que una
palabra se extraiga en palabras o frases compuestas mediante el cdigo en minscula s, por
ejemplo, adicional:s.

Reglas de formato para definiciones forzadas

Una lnea por palabra.

Los trminos no pueden tener el carcter de dos puntos.

Utilice el carcter en minscula s como cdigo de categora lxica para impedir que una
palabra se extraiga.

Utilice un mximo de seis cdigos de categoras lxicas por lnea. Los cdigos admitidos de
categoras lxicas se muestran en la seccin Patrones de extraccin. Si desea obtener ms
informacin, consulte el tema Patrones de extraccin el p. 242.

Utilice un asterisco (*) como carcter comodn al final de una cadena para conseguir
coincidencias parciales. Por ejemplo, si especifica adic*:s, palabras como aadir,
adicional, adicionalmente, adictivo y adiccin nunca se extraern como trmino
o como parte de un trmino de palabra compuesta. Sin embargo, si se declara de manera
explcita una coincidencia de palabra como trmino en un diccionario compilado o en las
definiciones forzadas, s que se extraer. Por ejemplo, si especifica adic*:s y adictivo:n,
adictivo se extraer si se encuentra en el texto.

Abreviaturas
Cuando el motor de extraccin est procesando texto, generalmente considera los puntos como
una indicacin de que la frase ha terminado. Esto suele ser correcto; sin embargo, este manejo de
los puntos no se aplica en el caso de las abreviaturas.
Si extrae trminos del texto y detecta que no se han manejado bien determinadas abreviaturas,
deber declararlas de manera explcita en esta seccin.

244
Captulo 11

Nota: Si la abreviatura ya aparece como definicin de sinnimo o est definida como trmino en
un diccionario de tipo, no ser necesario aadir su entrada aqu.
Reglas de formato para las abreviaturas

Defina una abreviatura por lnea.

Apndice

Excepciones de textos en japons

Aunque los textos en japons se someten a unos procesos y una minera similares a los de
otros idiomas admitidos en IBM SPSS Text Analytics for Surveys, hay cierto nmero de
diferencias. Las diferencias ms pequeas se describen junto a las instrucciones del resto de
idiomas en esta documentacin. Sin embargo, algunas de las diferencias ms grandes se cubren en
este captulo del apndice.

Extraccin y categorizacin de textos en japons


Al realizar la minera en textos en japons, el proceso es similar al de otros idiomas admitidos.
Si desea obtener ms informacin, consulte el tema Acerca de la minera de datos de texto
en el captulo 1 el p. 3. Sin embargo, hay ciertas diferencias para el japons que se indican
a continuacin.

Cmo funciona la extraccin


Durante la extraccin de los conceptos e ideas clave de las respuestas, IBM SPSS Text
Analytics for Surveys se basa en el anlisis de texto basado en lingstica. Este mtodo ofrece la
velocidad y la rentabilidad propia de los sistemas basados en estadsticas. Pero ofrece un grado
de precisin mucho mayor, y con menos intervencin humana. El anlisis de texto basado en
lingstica se basa en el mbito de estudio conocido como proceso de idioma natural, conocido
tambin como lingstica computacional.
Para textos en japons, la diferencia entre enfoques basados en estadstica y basados en
lingstica durante el proceso de extraccin puede ilustrarse utilizando la palabra como
ejemplo. Utilizando esta palabra podemos encontrar expresiones como , que se traduce
como el sol desciende o , que se traduce como sentirse por los suelos. Si utiliza
nicamente tcnicas estadsticas, (que se traduce como sol), (que se traduce como sentirse)
y (que se traduce como abajo) se extraen por separado. Sin embargo, cuando utilizamos
el verificador de datos de impresiones, que utiliza tcnicas lingsticas, no slo se extraen ,
y , sino que (que se traduce como sentirse por los suelos) se extrae y se
asigna al tipo < - >. El uso de tcnicas basadas en lingstica a travs del
verificador de datos de impresiones permite extraer expresiones con ms sentido. El anlisis y
la captura de emociones reducen la ambigedad del texto, lo que convierte a la minera de texto
basada en lingstica, por definicin, en el mtodo ms fiable.
Comprender el funcionamiento del proceso de extraccin puede ayudarle a tomar decisiones
clave a la hora de ajustar los recursos lingsticos (bibliotecas, tipos, sinnimos, etc.). Estos son
los pasos del proceso de extraccin:

Conversin de datos de origen en un formato estndar

Identificar los trminos candidatos

Identificar las clases de equivalencias y la integracin de sinnimos

Copyright IBM Corporation 2004, 2011.

245

246
Apndice A

Asignar un tipo

Crear ndices y, cuando se le pida, extraer patrones con un verificador de datos secundario

Paso 1. Conversin de datos de origen en un formato estndar

En este primer paso, los datos que se importan se convierten en un formato uniforme que puede
utilizarse para realizar otros anlisis. Esta conversin se lleva a cabo internamente y no cambia
los datos originales.
Paso 2. Identificar los trminos candidatos

Es importante comprender el rol de los recursos lingsticos en la identificacin de los trminos


candidatos durante la extraccin lingstica. Los recursos lingsticos se utilizan siempre que se
ejecuta una extraccin. Existen en forma de plantillas, bibliotecas y recursos compilados. Las
bibliotecas incluyen listas de palabras, relaciones y otra informacin que se utiliza para especificar
o ajustar la extraccin. Estos recursos compilados no se pueden ver ni editar. Sin embargo, los
recursos restantes s pueden editarse en el Editor de recursos.
Los recursos compilados son los componentes internos principales del motor de extraccin en
SPSS Text Analytics for Surveys. Estos recursos incluyen un diccionario general que contiene
una lista de formatos base con un cdigo de categora lxica (sustantivo, verbo, adjetivo, etc.).
Los recursos tambin incluyen tipos incorporados reservados que se utilizan para asignar muchos
trminos extrados a los tipos siguientes: <>, <> o <>. Si desea obtener ms
informacin, consulte el tema Tipos disponibles para textos en japons el p. 254.
Adems de los recursos compilados, se entregan varias bibliotecas con el producto y pueden
utilizarse para complementar los tipos y las definiciones de conceptos en los recursos compilados,
as como para ofrecer sinnimos. Estas bibliotecasy las bibliotecas personalizadas que haya
creadose componen de varios diccionarios. Estos incluyen diccionarios de tipo, diccionarios
de sinnimos y diccionarios de exclusin. Si desea obtener ms informacin, consulte el tema
Edicin de recursos para textos en japons el p. 250.
Una vez importados y convertidos los datos, el motor de extraccin empezar a identificar los
trminos candidatos para la extraccin. Los trminos candidatos son palabras o grupos de palabras
que se utilizan para identificar conceptos en el texto. Durante el proceso del texto, las palabras
simples (unitrminos) y palabras compuestas (multitrminos) se identifican mediante extractores
de patrones de categoras lxicas. Por ejemplo, el multitrmino , que responde al patrn
de categora lxica <> + <>, tiene dos componentes. A continuacin, las palabras clave
de impresiones candidatas se identifican mediante el anlisis de enlace de texto de impresiones.
Por ejemplo, supongamos que tiene el siguiente texto en japons: . En
este caso, el motor de extraccin asignara el tipo de impresin - , tras hacer
coincidir () + + mediante una de las reglas de enlace de texto de impresiones.
Nota: los trminos del diccionario general compilado arriba mencionado representan una lista de
todas las palabras que probablemente no resultan relevantes o que son lingsticamente ambiguas,
como los unitrminos. Estas palabras se excluyen de la extraccin cuando se estn identificando
los unitrminos. Sin embargo, volvern a evaluarse cuando determine las categoras lxicas no
cuando busque palabras compuestas candidatas ms largas (multitrminos).
Paso 3. Identificar las clases de equivalencias y la integracin de sinnimos

247
Excepciones de textos en japons

Despus de identificar los unitrminos y multitrminos candidatos, el software utiliza un


diccionario de normalizacin para identificar las clases de equivalencias. Una clase de
equivalencia es la forma bsica de una frase o una forma simple de dos variantes de la misma
frase. El propsito de asignar frases a las clases de equivalencias es asegurarse de que, por
ejemplo, efecto secundario y no se consideren conceptos separados. Para determinar
qu concepto se va a utilizar para la clase de equivalencia (es decir, cul de las dos opciones,
efecto secundario o bien se utiliza como trmino principal), el motor de extraccin
aplica las reglas siguientes en el orden que aparece:

La forma especificada por el usuario en una biblioteca.

La forma ms frecuente, segn lo definido por recursos compilados con anterioridad.

Paso 4. Asignar un tipo

A continuacin, se asignan tipos a los conceptos extrados. Un tipo es una agrupacin semntica
de conceptos. En este paso se utilizan tanto los recursos compilados como las bibliotecas. Los
tipos incluyen elementos como conceptos de nivel ms alto, palabras positivas y negativas,
nombres propios, lugares, organizaciones, etc. Si desea obtener ms informacin, consulte el tema
Diccionarios de tipo en el captulo 10 el p. 215.
Los recursos del japons tienen un conjunto de tipos distintivo. Si desea obtener ms
informacin, consulte el tema Tipos disponibles para textos en japons el p. 254.
Paso 5. Creacin de ndices y coincidencias de patrones con extraccin de eventos

Se crea el ndice del conjunto completo de registros estableciendo un marca entre una posicin
de texto y el trmino representativo de cada clase de equivalencia. De esta manera se presupone
que todos los casos de la forma declinada de un concepto candidato se indexa como forma bsica
candidata. Para cada forma bsica se calcula la frecuencia global.
SPSS Text Analytics for Surveys puede detectar no solamente tipos y conceptos, sino tambin
las relaciones entre ellos. Hay varios algoritmos y bibliotecas disponibles en el producto que
proporcionan la capacidad de extraer patrones de relaciones de anlisis de enlace de texto entre
tipos y conceptos. Son especialmente tiles cuando se intentan detectar opiniones especficas (por
ejemplo, reacciones ante productos).

Cmo funciona la extraccin secundaria


Cuando realiza una extraccin en textos en japons, automticamente obtiene conceptos de las
palabras clave bsicas y los 8 tipos bsicos, incluidos , , , , ,
, y . Sin embargo, para aprovechar al mximo los recursos predeterminados
proporcionados para textos en japons, debe seleccionar uno de los siguientes verificadores de
datos secundarios: Impresin o Dependencia.
Si selecciona un verificador de datos secundario, tambin podr extraer patrones de anlisis de
enlace de texto y descubrir las relaciones entre los trminos del texto.
Anlisis secundario. Cuando se inicia una extraccin, la extraccin de palabras clave bsicas tiene

lugar utilizando el conjunto predeterminado de tipos. Si desea obtener ms informacin, consulte


el tema Tipos disponibles para textos en japons el p. 254. Sin embargo, cuando selecciona un
verificador de datos secundario, puede obtener muchos ms conceptos o conceptos ms completos
dado que el extractor ahora incluir partculas y verbos auxiliares como parte del concepto. Por

248
Apndice A

ejemplo, supongamos que tenemos la oracin , traducida como Me he quitado


un gran peso de encima. Con este ejemplo, la extraccin de palabras clave bsicas puede extraer
cada concepto de manera separada como: (encima), (peso), (he quitado), pero la
relacin entre estas palabras no se extrae. Sin embargo, si aplica el anlisis de impresiones, puede
extraer conceptos ms completos relacionados con un tipo de impresin como el concepto =
, que se traduce como quitarse un gran peso de encima, asignado al tipo <
->. En el caso del anlisis de impresiones, tambin se incluye un gran nmero de tipos
adicionales. Adems, si selecciona un verificador de datos secundario, tambin podr generar
resultados del anlisis de enlace de texto.
Nota: Cuando se activa un verificador de datos secundario, el proceso de extraccin tarda ms en
completarse. Si desea obtener ms informacin, consulte el tema Cmo funciona la extraccin
secundaria el p. 247.

Anlisis de dependencias. Si selecciona esta opcin, sacar el mximo partido de las partculas

extendidas para los conceptos de extraccin de la extraccin de tipos y palabras clave bsicos.
Tambin puede obtener los resultados de patrones ms completos a partir del anlisis de
enlace de texto (TLA) de dependencias.

Anlisis de impresiones. Si selecciona este verificador de datos, sacar el mximo partido de

los conceptos extrados adicionales y, cuando sea aplicable, de la extraccin de resultados de


patrones del TLA. Adems de los tipos bsicos, tambin puede beneficiarse de ms de 80
tipos de impresiones, entre las que se incluyen , , , , , etc. Estos
tipos se utilizan para descubrir conceptos y patrones en el texto a travs de la expresin de
emociones, impresiones y opiniones. Hay tres opciones que dictan dnde se centra el anlisis
de impresiones: Todas las impresiones, Slo la impresin representativa y Slo conclusiones.

Opciones de anlisis de impresiones


Al trabajar con textos en japons, puede decidir extraer conceptos y tipos adicionales mediante el
verificador de datos de impresiones. Este verificador de datos incluye ms de 80 tipos adicionales
para ayudarle a extraer opiniones, sentimientos y emociones de sus datos de texto. Asimismo, si
selecciona Anlisis de impresiones como verificador de datos secundario, tambin debe seleccionar
una de las siguientes opciones, que indica al motor de extraccin qu impresiones extraer:

Todas las impresiones

Slo la impresin representativa

Slo conclusiones

Durante la extraccin, el verificador de datos de impresiones empieza dividiendo un registro en


clusulas, cada una de las cuales contiene un predicado. Por ejemplo, el verificador de datos
interpreta el texto 4, que se traduce como Es abril, pero sigue
haciendo fro., como 2 clusulas a pesar de que slo contiene un carcter de punto . A
continuacin, el motor de extraccin examina cada clusula para comprobar si se ajusta a la
opcin seleccionada.
Examinemos las tres opciones mediante el siguiente texto de muestra:
. Este texto se
traduce as: Una empleada del servicio no fue amable, pero la habitacin era grande y bastante

249
Excepciones de textos en japons

satisfactoria. Tambin estoy satisfecho con la cena. Durante la extraccin, el texto original se
divide en las siguientes clusulas:

, que significa Una empleada del servicio

no fue amable, pero

, que significa La habitacin era grande y bastante

satisfactoria.

, que significa Tambin estoy satisfecho con la cena.

Todas las impresiones

Esta opcin extrae todas las impresiones, opiniones y emociones que coinciden con los recursos
y las reglas de enlace de texto de impresiones. Con nuestra muestra, se pudieron extraer los
siguientes conceptos del texto de muestra.
Tabla A-1
Posible resultado de la muestra utilizando la opcin Todas las impresiones

Concepto

Tipo

<>

<>

<>

<>

Nota: En la tabla anterior, las filas segunda y tercera muestran cmo puede obtener el extractor
dos conceptos de la misma clusula.
Slo la impresin representativa

Esta opcin slo extrae las opiniones o emociones ms representativas expresadas en cada
clusula. Si hay varias opiniones o emociones en el texto, se aplica un algoritmo. Este algoritmo
intenta determinar la importancia de las impresiones encontradas, as como la posicin de las
palabras de una clusula. En algunos caso en los que se encuentren dos palabras clave de
impresiones con la misma importancia, se extraer la palabra clave de impresin que est ms
cerca del final de la clusula en lugar de la que est ms al principio.
, que se traduce como la habitacin era grande, no se extrae del texto, ya que
en esta clusula , que aparece en segundo lugar, se considera ms importante
que , que aparece en primer lugar, cuando se aplica el algoritmo interno y la
posicin de las palabras.
Tabla A-2
Posible resultado del texto utilizando la opcin Slo la impresin representativa

Concepto

Tipo

<>

<>

<>

250
Apndice A

Slo conclusiones

Esta opcin obliga al extractor a identificar y extraer una palabra clave de impresin que
represente la conclusin de todo el registro. No todos los textos tienen una conclusin, as que
en algunos casos no se puede extraer nada de un texto determinado con esta opcin. Adems,
cuanto mayor sea el registro, ms difcil ser para el verificador de datos identificar la conclusin
principal. Aunque poco frecuente, todava es posible extraer varias conclusiones.
, que se traduce como satisfecho, se considera la conclusin esencial de las impresiones
expresadas en el texto.
Tabla A-3
Posible resultado del texto utilizando la opcin Slo conclusiones

Concepto

Tipo

<>

Funcionamiento de la categorizacin
Existen varias tcnicas diferentes entre las que puede escoger para crear categoras. Puesto que
cada conjunto de datos es exclusivo, el nmero de tcnicas y el orden en el que las aplica puede
cambiar con el tiempo. Puesto que su interpretacin de los resultados puede ser diferente de la
interpretacin de otros, puede que deba experimentar con diferentes tcnicas para comprobar con
cul de ellas se obtiene el mejor resultado para los datos del texto.
En esta gua, la generacin de categoras hace referencia a la generacin de definiciones de
categora y clasificacin mediante el uso de una o ms tcnicas incorporadas, y categorizacin
hace referencia al proceso de puntuacin o etiquetaje por el que se asignan identificadores
exclusivos (nombre/ID/valor) a las definiciones de categoras para cada registro.
Durante la generacin de categoras, los conceptos y los tipos que se extrajeron se utilizan como
los cimientos para las categoras. Cuando crea categoras, los registros se asignan automticamente
a categoras si contienen texto que coincida con un elemento de una definicin de categora.
IBM SPSS Text Analytics for Surveys ofrece varias tcnicas automticas de generacin de
categoras para ayudarle a categorizar los registros rpidamente. Cada una de las tcnicas resulta
idnea para determinados tipos de datos y situaciones, pero a menudo conviene combinar tcnicas
en el mismo anlisis para capturar el rango completo de registros. Puede ver un concepto en
diversas categoras o detectar categoras redundantes.

Edicin de recursos para textos en japons


A partir de IBM SPSS Text Analytics for Surveys versin 4, tiene a su disposicin una nueva
plantilla y un paquete de anlisis de texto (TAP) para textos en japons. Puede realizar cambios
en los recursos aadiendo y editando trminos para personalizarlos en sus datos. El paquete
de anlisis de texto tambin contiene un conjunto de categoras compuesto por categoras que
representan impresiones positivas, negativas y contextuales/genricas.
Puede trabajar con sus recursos en Editor de recursos. Los editores trabajan de manera similar
con todos los idiomas de texto; sin embargo, hay varias diferencias significativas para los textos
en japons tal y como se describe aqu.

251
Excepciones de textos en japons
Figura A-1
Editor de recursos vista para textos en japons

Los siguientes puntos destacan algunas de las diferencias claves al trabajar con recursos para
textos en japons. Para obtener una descripcin general de los cuatro paneles principales de la
pestaa Recursos de la biblioteca, consulte La interfaz del editor el p. 191.
1. Panel de bibliotecas. Situada en la esquina superior izquierda, esta rea funciona de forma
muy parecida a como lo hace con otros idiomas. Sin embargo, hay varias diferencias como la
imposibilidad de crear nuevos tipos o de cambiar el nombre de los tipos. Si desea obtener ms
informacin, consulte el tema Trabajo con bibliotecas en el captulo 9 el p. 202.
2. Panel de trminos de diccionarios de tipo. Situado a la derecha del panel del rbol de bibliotecas,

este panel es bastante diferente para textos en japons. Adems de tener el nombre del trmino,
tambin puede aadir el nombre en escritura kana, as como seleccionar uno o dos tipos a los que
puede asociar el trmino. Sin embargo, no puede generar formas conjugadas de los trminos o
asignar opciones de coincidencia con trminos en japons a diferencia de otros idiomas distintos
del japons. Si desea obtener ms informacin, consulte el tema Panel de trminos, de tipos y del
rbol de bibliotecas para el japons el p. 252.
3. Panel del diccionario de sustitucin/sinnimos. En los recursos para textos en japons, encontrar
la pestaa Sinnimos, en la que podr definir todos los sinnimos para sus recursos. En la pestaa
Sinnimos, hay una columna adicional denominada Tipo en la que debe designar el tipo de los
sinnimos introducidos. Si desea obtener ms informacin, consulte el tema Uso del diccionario
de sinnimos para textos en japons el p. 259.Nota: La pestaa Elementos opcionales no aparece
porque no es aplicable a textos en japons.

252
Apndice A

4. Panel del diccionario de exclusin. No hay diferencias en este panel para recursos para textos en
japons, excepto que no se admite el uso del comodn *.
5. Panel de validacin. Para textos en japons, hay un panel de validacin adicional utilizado para
comprobar sus recursos antes de la extraccin. Cuando se extrae de textos en japons, el motor
de extraccin vuelve a compilar los recursos automticamente si se detectan cambios antes de
empezar el proceso de extraccin. Para evitar posibles errores durante la extraccin, puede volver
a compilar y validar los recursos antes de la extraccin de modo que pueda corregir los errores
que encuentre. Si desea obtener ms informacin, consulte el tema Validacin y compilacin
de recursos del japons el p. 260.

Nota: No hay recursos avanzados o reglas de enlace de texto editables para textos en japons, de
modo que estas pestaas no estn disponibles.

Panel de trminos, de tipos y del rbol de bibliotecas para el japons


El modo en que trabaja con bibliotecas y tipos para recursos del japons es muy parecido al de
otros idiomas. Si desea obtener ms informacin, consulte el tema Diccionarios de tipo en el
captulo 10 el p. 215.
Sin embargo, hay varias diferencias principales, entre las que se incluyen:

Los recursos para textos en japons tienen un conjunto de tipos distintivo. Si desea obtener
ms informacin, consulte el tema Tipos disponibles para textos en japons el p. 254.

Los tipos no se pueden crear ni se puede cambiar su nombre; sin embargo, sus propiedades se
pueden editar. Si desea obtener ms informacin, consulte el tema Edicin de las propiedades
de tipo del japons el p. 258.

Puede aadir y editar trminos, incluida la especificacin de un nombre en escritura kana


para un trmino, as como la asignacin a un tipo y un tipo de impresin secundaria. Si
desea obtener ms informacin, consulte el tema Panel de trminos, de tipos y del rbol de
bibliotecas para el japons el p. 252.

El panel del rbol de bibliotecas muestra las bibliotecas y sus diccionarios de tipo. Si selecciona
una biblioteca o tipo en el panel de la izquierda, un panel de trminos a la derecha mostrar los
trminos de las bibliotecas o diccionarios de tipo seleccionados. Puede aadir trminos a un
diccionario de tipo directamente en el panel de trminos o a travs del cuadro de dilogo Aadir
trminos. Los trminos que aada pueden ser palabras simples o compuestas. En la parte superior
de la lista siempre encontrar una fila en blanco para que pueda aadir un trmino nuevo.
Cuando defina un trmino en un diccionario de tipo, se considerar un sustantivo de manera
predeterminada y se asignar automticamente al tipo <>. Sin embargo, puede cambiar el
tipo por otro tipo bsico como <>, <>, <>, etc. Si el motor de extraccin detecta
que este trmino tiene la misma categora lxica que el tipo al que lo haba asignado en la columna
Tipo, se asignar a dicho tipo y se extraer. Tambin puede asignar el trmino a uno de los tipos de
impresin en la columna Tipo de impresin. A continuacin, cuando utilice el verificador de datos
secundario Impresin, el texto se procesar por segunda vez para intentar encontrar trminos y
asignarlos a los tipos de impresin. Adems, si define un tipo de impresin y un tipo bsico y
el motor de extraccin detecta que este trmino coincide con ambos tipos al realizar tambin el
anlisis de impresiones secundario, el tipo de impresin tendr preferencia y se mostrar en el

253
Excepciones de textos en japons

panel de resultados extrados y en los resultados del anlisis de enlace de texto. Por ejemplo, si un
verbo se extrajo como un tipo de verbo <> y tambin como un tipo positivo como amado,
este trmino se mostrar como perteneciente al tipo positivo en la interfaz, ya que a menudo es
ms interesante captar una impresin y no una categora lxica.
Figura A-2
Paneles de bibliotecas y de trminos para recursos del japons

Tabla A-4
Descripciones de columnas del panel de trminos

Nombre de
columna
Trmino

Forzar

Kana
Tipo
Tipo de impresin
Biblioteca

Descripcin de columna
Introduzca palabras simples o compuestas en la casilla. El color en el que aparece el
trmino depende del color del tipo donde se ha almacenado o forzado el trmino.
Puede cambiar los colores de tipo en el cuadro de dilogo Propiedades de tipo. Si
desea obtener ms informacin, consulte el tema Edicin de las propiedades de tipo
del japons el p. 258. Por lo general, el trmino est escrito en kanji pero tambin
puede incluir la escritura kana. Importante: No se admite la introduccin de verbos
utilizando caracteres katakana.
Al pulsar y colocar un icono de chincheta en esta casilla, permite que el motor de
extraccin pase por alto el resto de las apariciones de este mismo trmino en otras
bibliotecas. Si desea obtener ms informacin, consulte el tema Forzado de trminos
en el captulo 10 el p. 222. Esto funciona igual en todos los idiomas.
Introduzca en escritura kana el nombre del trmino en escritura kanji.
Seleccione el nombre de tipo bsico al que debera asignarse el trmino. Si desea
obtener ms informacin, consulte el tema Tipos disponibles para textos en japons
el p. 254.
Si se va a realizar un anlisis secundario, seleccione el nombre del tipo de impresin
al que debera asignarse el trmino. Si desea obtener ms informacin, consulte el
tema Tipos disponibles para textos en japons el p. 254.
Seleccione la biblioteca en la que est almacenado su trmino. Puede arrastrar y
soltar un trmino en otro tipo en el panel del rbol de bibliotecas para cambiarlo
de biblioteca.

254
Apndice A

Para aadir un nico trmino a un diccionario de tipo


E En el panel del rbol de bibliotecas, seleccione el diccionario de tipo al que desea aadir el trmino.
E En la lista de trminos del panel central, escriba el trmino en la primera casilla disponible y

defina las opciones que desee para dicho trmino.


Para aadir varios trminos a un diccionario de tipo
E En el panel del rbol de bibliotecas, seleccione el diccionario de tipo al que desea aadir los

trminos.
E En los mens elija Herramientas > Nuevos trminos. Aparecer el cuadro de dilogo Aadir nuevos

trminos.
Figura A-3
Cuadro de dilogo Aadir nuevos trminos

E Especifique los trminos que desee aadir al diccionario de tipo seleccionado escribindolos o

pegando un conjunto de trminos. Si especifica varios trminos, deber separarlos mediante


el delimitador definido en el cuadro de dilogo Opciones, o aadir cada trmino en una lnea
nueva. Si desea obtener ms informacin, consulte el tema Opciones de configuracin en el
captulo 2 el p. 17.
E Pulse en Aceptar para aadir los trminos al diccionario. El cuadro de dilogo se cierra y los

nuevos trminos aparecen en el diccionario.

Tipos disponibles para textos en japons


No puede aadir nuevos tipos a los recursos del japons; sin embargo, puede aadir y eliminar
trminos de ellos. Las siguientes tablas incluyen el conjunto de tipos del japons disponibles
actualmente.
Tipos para la extraccin bsica

Cuando se inicia una extraccin, se utilizan los siguientes tipos.

255
Excepciones de textos en japons
Tabla A-5
Tipos para la extraccin bsica

Tipos

Descripcin
Palabras que hacen referencia a cosas, como coche y pelcula. Sin embargo,
los nombres personales, nombres de lugares y nombres de organizaciones tienen
una categora independiente.
Nombres que se corresponden con los nombres de personas especficas, como
Tokugawa y Ieyasu. Las combinaciones de nombres y apellidos, como
Tokugawa Ieyasu, tambin son nombres personales.
Nombres como Tokio y Londres que hacen referencia a lugares especficos.
Nombres que hacen referencia a empresas y organizaciones especficas, como
Federacin de organizaciones econmicas.
Palabras como tranquilo (shizuka) que describen las caractersticas o el estado
de un objeto y que pueden utilizarse en frases como no [adjetivo] (~ de nai)
y un objeto [adjetivo] (~ na koto).
Palabras como divertido (tanoshii) que describen las caractersticas o el estado
de un objeto y que pueden utilizarse en frases como volverse [adjetivo] (~ku
naru) y un objeto [adjetivo] (~i koto).
Palabras que describen un movimiento o accin, incluidos los verbos de tipo I
(raz consonntica), verbos de tipo II (raz voclica) y verbos irregulares (sagyou
henkaku y kagyou henkaku).
Palabras como adverbios, adjetivos antepuestos al sustantivo, conjunciones e
interjecciones; algunos ejemplos incluyen bastante, cualquier, entonces
y gracias.

Tipos de anlisis de impresiones

Cuando selecciona el verificador de datos secundario para la extraccin de impresiones, obtiene


un gran nmero de tipos adems de los 8 tipos bsicos.
Tabla A-6
Tipos de anlisis de impresiones

Tipos
-

Descripcin
Expresiones de algo generalmente positivo que puede clasificarse como bueno.

Describe un evento deseable que produce un estmulo agradable.

Describe un evento agradable que slo puede ser posible mediante un esfuerzo
considerable.
Describe un evento feliz que slo puede ser posible mediante la casualidad o
-
una coincidencia sorprendente.
Sugiere que algo es un estmulo o entorno que produce una sensacin fisiolgica
-
agradable.
Describe
un estado en el que el cuerpo no tiene ninguna enfermedad, lesin ni
-
fatiga o un estado en el que el estado fsico est mejorando.
Sugiere que una persona est tranquila y no tiene el riesgo de sufrir daos.
-
Indica que una persona ha obtenido condiciones especialmente favorables o cario
-
mediante las acciones de dicha persona o las circunstancias de su nacimiento.
Describe un evento deseable que relaja la mente.
-
-

Indica que un alimento tiene un sabor agradable.

Implica que algo determinado ha producido el efecto esperado.

Sugiere que la importancia, significado o valor de algo es asombrosamente bueno.

256
Apndice A

Tipos
-
-

Descripcin
Sugiere que una persona reconoce las acciones de otra de manera positiva.

Expresa la opinin de que la situacin de otra persona es favorable (en un grado


aceptable para el orador).
Eventos positivos de otro tipo o eventos positivos con poca relacin con el orador.

Indica o anticipa actividades como compaerismo, diversin y entretenimiento.

-
-

Denota que algo tiene una cualidad humorstica que proporciona un estmulo
agradable.
Expresa una sonrisa o risa provocada por algo bueno y/o humorstico.

Predice que un evento bueno ocurrir en el futuro.

Eventos agradables de otro tipo y/o actividades/comportamientos positivos con


poca relacin con el orador.
- Implica que, desde el punto de vista del comprador, algo tiene un valor monetario
deseable.
Sugiere que un servicio se ha proporcionado o completado de manera oportuna.
-
Sugiere que la actitud o comportamiento del proveedor de un servicio fue solcito.
-
-

Expresa la idea de que el tipo y/o cantidad de informacin y/o el mtodo de


suministro son adecuados.
- Opiniones, distintas de las anteriores, que elogian al proveedor de un servicio.
Opiniones, distintas de las anteriores, que elogian las caractersticas, capacidades
-
y/o funcionamiento de algo determinado.
Expresa el deseo de poseer o acercarse a algo determinado.
-
-

Describe el deseo de pertenecer o seguir formando parte de un grupo determinado.

Implica que una persona desea o tiene la intencin de utilizar dinero para obtener
algo determinado.
Indica que el nmero de personas que desean o aprecian algo determinado ha
superado un objetivo determinado.
Indica la presencia de personas que adquieren algo determinado o que el nmero o
valor de las compras ha superado un objetivo determinado.
Expresiones de algo generalmente negativo que puede clasificarse como malo.
Sensacin distintiva de enfado que aparece cuando algo no sucede como se haba
planificado.
Expresa la idea de que otra persona no ha tomado la decisin adecuada.

-
-
-
-
-
-
-
-
-
-
-

Palabras o acciones que intimidan a otra persona para ajustarse a las intenciones
de una persona.
Palabras utilizadas para demostrar una opinin excesivamente pobre de otra
persona.
Implica que hay grandes carencias en el carcter, capacidades y/u otras cualidades
de otra persona.
Expresa una represalia o resentimiento por un inconveniente provocado por otra
persona.
Palabras utilizadas para inhibir la comunicacin.

Sentimiento desagradable provocado por la incapacidad de obtener un estado o


algo deseado.
Indica que un alimento tiene un mal sabor.

Implica que algo no ha producido el efecto esperado.

Implica que, desde el punto de vista del comprador, el valor monetario de algo
determinado no es deseable.

257
Excepciones de textos en japons

Tipos

Descripcin
- Sugiere que el proveedor de un servicio es el responsable.
Implica que un servicio no se ha realizado/completado de manera oportuna o que
-
el servicio todava debe completarse.
Denota
un sentimiento desagradable provocado por la actitud o comportamiento
-
del proveedor de un servicio.
Expresa la idea de que el tipo y/o cantidad de informacin y/o el mtodo de
-
suministro no son adecuados.
Denota que el proveedor de un servicio no proporciona una respuesta adecuada,
-
aunque la situacin lo exija.
Sugiere que algo es un estmulo o entorno que produce una sensacin fisiolgica
-
negativa.
Sentimientos de enfado distintos de los anteriores. Enfado general experimentado
-
por la organizacin o empresa del orador o descripciones de eventos provocados
por dicho enfado.
Sentimiento desagradable distintivo experimentado cuando una persona pierde o
-
no puede obtener algo.
Expresa la idea de que no se ha podido lograr un objetivo determinado a pesar
-
de un esfuerzo considerable.
Indica un resultado negativo provocado por una desafortunada coincidencia y/o
-
mala suerte, no por culpa de la propia persona.
que una persona est disgustada por un evento o algo negativo imprevisto
Sugiere
-
y no es capaz de encontrar una respuesta adecuada.
Sentimiento de descontento experimentado cuando algo que se haba anticipado
-
no sucede.
Estado en el que una persona se ve invadida por un sentimiento de descontento
-
y desilusin.
Sugiere que algo negativo, experimentado por el orador u otra persona, no puede
-
mejorarse.
Expresa la idea de que en el pasado una persona no tom la decisin adecuada,
-
aunque estaba disponible como opcin.
Indica el reconocimiento por parte del orador de haber hecho dao a otra persona.
-
-

Expresa la idea de que el contacto con otras personas es escaso o que las personas
con las que puede entrar en contacto son pocas.
Expresa la idea de que la situacin de otra persona es significativamente peor
-
que la del orador.
Indica que una persona debe tomar una decisin pero no es capaz de elegir entre
-
las opciones disponibles.
Expresa
la idea de que no hay ningn modo eficaz de responder a una situacin
-
que exige actuar.
Expresa un estado psicolgico desagradable en el que una persona no puede
-
actuar con normalidad debido a motivos externos o a los errores o equivocaciones
de dicha persona.
- Describe un estado en el que el cuerpo tiene alguna enfermedad, lesin y/o fatiga
o un estado en el que el estado fsico no est mejorando.
Expresa la idea de que algo puede no continuar en su estado deseado o no
-
satisfacer las expectativas.
Sugiere que parece probable que algo determinado provoque daos o lesiones.
-
Sentimientos de tristeza distintos de los anteriores, como una tristeza general
-
sobre algo no especfico.
Indica que una persona quiere mantener algo alejado o alejarse de algo.
-

258
Apndice A

Tipos
-

Descripcin
Describe el deseo de abandonar o dejar de formar parte de un grupo determinado.

- Sugiere que una persona no quiere algo determinado o no tiene la intencin de


pagar por ello.
- Indica que el nmero de personas a las que les gusta algo determinado no
ha alcanzado un objetivo determinado o que hay demasiadas personas con
sentimientos negativos hacia ello.
- Indica la ausencia de personas que adquieran algo determinado o que el nmero o
valor de las compras no ha alcanzado un objetivo determinado.
Expresiones que exigen informacin que requiere un examen o consideracin
-
mayor de la otra persona.
Expresiones
que exigen informacin que ya est en manos de la otra persona.
-
-

Expresiones que ordenan a la otra persona (cuando la otra persona es el


responsable directo o tiene un rango inferior que el orador) que solucione un
problema.
Expresiones
que ordenan a la otra persona (cuando la otra persona es el
-
responsable directo o tiene un rango inferior que el orador) que se comporte mejor.
Expresiones que ordenan a la otra persona (cuando la otra persona no es el
-
responsable o no tiene un rango inferior que el orador) que haga algo.
Expresiones que animan a otra persona o descripciones de comportamiento
-
alentador.
Expresiones que ordenan a otra persona que haga algo junto con el orador.
-
Expresa la idea de que lo repentino o la escala de un evento transcienden el
-
juicio/la comprensin racional.
Ninguna
expresin de evaluacin.
-

Edicin de las propiedades de tipo del japons


Aunque no puede crear tipos en recursos del japons, puede ver y editar propiedades de tipo.
Tenga en cuenta que las opciones como la opcin de coincidencia y las formas declinadas no se
aplican a textos en japons.
Figura A-4
Cuadro de dilogo Propiedades de tipo para recursos para textos en japons

Nombre. Nombre del diccionario de tipo.

259
Excepciones de textos en japons

Aadir a. Este campo indica la biblioteca donde crear el nuevo diccionario de tipo.
Color de fuente. Este campo permite distinguir los resultados de este tipo del resto de resultados de
la interfaz. Si selecciona Usar color principal, tambin se utilizar el color de tipo por defecto para
este diccionario de tipo. Este color por defecto se establece en el cuadro de dilogo Opciones. Si
desea obtener ms informacin, consulte el tema Opciones: Pestaa Mostrar en el captulo 2 el p.
19. Si selecciona Personalizado, seleccione un color de la lista desplegable.
Anotacin. Este campo es opcional y puede utilizarse para introducir comentarios o descripciones.
Para ver o editar propiedades de tipo
E Seleccione el tipo cuyas propiedades quiera ver.
E Pulse el botn derecho del ratn y elija Propiedades de tipo en el men contextual. Aparecer el

cuadro de dilogo Propiedades de tipo.


E Haga los cambios necesarios.
E Pulse en Aceptar para guardar los cambios en el diccionario de tipo.

Uso del diccionario de sinnimos para textos en japons


Para textos en japons, el diccionario de sustitucin slo contiene una pestaa para gestionar sus
sinnimos: la pestaa Sinnimos. Los sinnimos asocian dos o ms palabras con el mismo
significado. Los sinnimos tambin pueden utilizarse para agrupar trminos con sus abreviaturas,
o para agrupar palabras que suelen escribirse mal con la ortografa correcta.
Figura A-5
Entradas de sinnimos para textos en japons

Una definicin de sinnimo se compone de dos partes. El trmino objetivo es el trmino bajo el
cual desea que el motor de extraccin agrupe todos los trminos sinnimos. A menos que utilice
este trmino objetivo como sinnimo de otro trmino objetivo o que se excluya, es probable que
se convierta en el concepto que aparece en el panel Resultados extrados. La lista de sinnimos
son los trminos que se agruparn bajo el trmino objetivo.
En la pestaa Sinnimos, puede especificar una definicin de sinnimo en la lnea vaca de la
parte superior de la tabla. Empiece definiendo el trmino objetivo y sus sinnimos. Tambin puede
seleccionar la biblioteca en la que desea que se guarde esta definicin. Durante la extraccin, todas
las apariciones de los sinnimos se agruparn bajo el trmino objetivo de la extraccin final. Si
desea obtener ms informacin, consulte el tema Adicin de trminos en el captulo 10 el p. 219.
Cuando est creando sus diccionarios de tipo, puede especificar un trmino y tambin pensar
en tres o cuatro sinnimos del mismo. En ese caso, puede escribir todos los trminos y luego el
trmino objetivo en el diccionario de sustitucin, y a continuacin arrastrar los sinnimos.

260
Apndice A

Importante: Los comodines y los caracteres especiales no son compatibles con los sinnimos

para textos en japons.


Para aadir una entrada de sinnimo
E En la lnea vaca de la parte superior de la tabla en la pestaa Sinnimos del panel de sustitucin,

escriba el trmino objetivo en la columna Objetivos. El trmino objetivo que ha escrito aparece en
color. Este color representa el tipo en el que el trmino aparece o se fuerza, si se da el caso. Si el
trmino aparece en negro, significa que no est en ningn diccionario de tipo.
E Pulse en la segunda casilla a la derecha del objetivo y escriba el conjunto de sinnimos. Separe

cada entrada utilizando el delimitador global tal como est definido en el cuadro de dilogo
Opciones. Todos los sinnimos introducidos deberan tener el mismo tipo. Si desea obtener ms
informacin, consulte el tema Opciones de configuracin en el captulo 2 el p. 17. Los trminos
que especifique aparecern en color. Este color representa el tipo en el que aparece el trmino. Si
el trmino aparece en negro, significa que no est en ningn diccionario de tipo.
E En la tercera columna, la columna Tipo, designe un tipo para estos sinnimos. El objetivo, sin

embargo, toma el tipo asignado durante la extraccin. Sin embargo, si el objetivo no se ha


extrado como un concepto, entonces el tipo que aparece en esta columna se asigna al objetivo en
los resultados de extraccin.
E Pulse en la ltima casilla para seleccionar la biblioteca en la que desea almacenar esta definicin

de sinnimo.
Nota: estas instrucciones indican cmo realizar cambios en la Editor de recursos vista. Tenga
en cuenta que este tipo de ajuste puede hacerlo directamente en el panel Resultados extrados o
en el panel Datos. Si desea obtener ms informacin, consulte el tema Refinamiento de los
resultados de la extraccin en el captulo 5 el p. 86.

Validacin y compilacin de recursos del japons


Para textos en japons, hay un panel de validacin adicional utilizado para comprobar sus recursos
antes de la extraccin. Antes de que comience el proceso de extraccin para textos en japons,
el motor de extraccin vuelve a compilar los recursos automticamente si se detectan cambios
antes de empezar el proceso de extraccin. Si se encuentra un error durante la extraccin, puede
que el proceso no se complete correctamente.
Para evitar errores de compilacin, recomendamos que valide y compile sus recursos despus
de realizar cambios en Editor de recursos. Si aparece algn mensaje de error, puede realizar
correcciones e intentar validarlo de nuevo.
Figura A-6
Panel de validacin para textos en japons

261
Excepciones de textos en japons

Para validar recursos


E En los mens elija Herramientas > Validar recursos. Se abrir el panel de validacin para mostrar

los mensajes de error y compilacin.

Otras excepciones para el japons


Recursos internos que anulan recursos definidos por el usuario

Para textos en japons, los recursos predeterminados incluyen algunos recursos bsicos internos y
compilados con anterioridad. Estos recursos internos no son editables. Por este motivo, puede
utilizar Editor de recursos para realizar cambios y ajustes. En casi todos los casos, los trminos,
sinnimos y entradas en la lista de exclusin que defina en sus recursos tendrn preferencia sobre
los recursos internos compilados con anterioridad. Sin embargo, hay varias excepciones como se
indica en algunos de los siguientes ejemplos.

Hay casos en los que aadir trminos a un tipo especfico no tiene ningn efecto en los
resultados de extraccin. Es ms probable que ocurra esto cuando los datos contengan
oraciones largas que incluyan varios elementos morfolgicos, puntuacin diversa o smbolos.
Adems, como los recursos para textos en japons ya contienen un gran nmero de trminos
comunes compilados con anterioridad, hay varias palabras comunes para las que siempre se
forzar una definicin lingstica especfica.

Puede que no sea capaz de excluir trminos como , o debido a que el motor de
extraccin siempre forzar la extraccin de estos trminos.

Aunque es posible cambiar el tipo del trmino de <> a <>, el motor de


extraccin ignorar su cambio si intenta cambiar el tipo de un trmino de <> a <> o
a <> mediante el diccionario (de tipo) de palabras clave.

Puede haber casos en los que los cambios que haga en Editor de recursos o afecten a los
resultados de extraccin de una oracin y no de otra, ya que el proceso de extraccin termina
haciendo referencia a las palabras con co-ocurrencia en cada oracin.

Problema de visualizacin de caracteres katakana de ancho medio

Los caracteres katakana de ancho medio se convierten internamente en caracteres katakana de


ancho completo durante la extraccin pero siguen apareciendo como caracteres katakana de ancho
medio cuando se muestran en el panel Datos que se encuentra en la interfaz de usuario. Tenga
en cuenta que los caracteres katakana de ancho medio no pueden resaltarse en el panel Datos.
Para evitar este problema, convierta todos sus registros a caracteres katakana de ancho completo
antes de procesarlos.
Uso de caracteres en maysculas y minsculas

Los caracteres alfabticos en maysculas se convierten temporalmente en caracteres alfabticos en


minsculas cuando los lee la aplicacin. Sin embargo, el panel Datos mostrar el texto utilizando
las mismas maysculas y minsculas que el texto original. Los caracteres en maysculas y
minsculas se tratan de igual forma en este producto.

Apndice

Avisos
Esta informacin se desarroll para productos y servicios ofertados en todo el mundo.

IBM puede no ofertar los productos, servicios o funciones mencionadas en este documento en
otros pases. Consulte con su representante local de IBM la informacin de los productos y
servicios disponibles actualmente en su zona. Toda referencia a un producto, programa o servicio
de IBM no pretende afirmar ni sugerir que haya que usar ese producto, programa o servicio
de IBM. Se puede utilizar en su lugar cualquier producto, programa o servicio equivalente
funcionalmente que no infrinja ningn derecho de propiedad intelectual de IBM. Sin embargo,
queda bajo la responsabilidad del usuario evaluar y verificar el funcionamiento de cualquier
producto, programa o servicio que no sea de IBM.
IBM puede tener patentes o aplicaciones con patente en trmite que cubran la materia descrita
en este documento. La recepcin de este documento no le garantiza licencia alguna sobre estas
patentes. Puede enviar sus consultas de licencia, por escrito, a:
IBM Director of Licensing, IBM Corporation, North Castle Drive, Armonk, NY 10504-1785,
EE.UU.
Para consultas de licencia relativas a la informacin de conjuntos de caracteres de doble byte
(DBCS), pngase en contacto con el departamento de propiedad intelectual de IBM de su pas
o enve su consulta, por escrito, a:
Intellectual Property Licensing, Legal and Intellectual Property Law, IBM Japan Ltd., 1623-14,
Shimotsuruma, Yamato-shi, Kanagawa 242-8502 (Japn).
El siguiente prrafo no afecta a Reino Unido ni a ningn otro pas donde las provisiones mencionadas
sean incompatibles con la legislacin local: INTERNATIONAL BUSINESS MACHINES

PROVEE ESTA PUBLICACIN TAL CUAL SIN GARANTAS DE NINGUNA CLASE,


EXPRESAS O IMPLCITAS, INCLUYENDO, PERO NO QUEDANDO LIMITADAS POR
ESTAS, LAS GARANTAS IMPLCITAS DE NO VIOLACIN, COMERCIALIZACIN
Y CONFORMIDAD PARA UN PROPSITO PARTICULAR. Algunos estados no permiten
descargos de responsabilidad de garantas expresas o implcitas en algunas transacciones. Por
tanto, puede que esta declaracin no le afecte.
Esta informacin puede incluir imprecisiones tcnicas o errores tipogrficos. Se realizan
modificaciones peridicas de la informacin aqu contenida; dichos cambios se incorporarn a
las nuevas ediciones de la publicacin. IBM puede realizar sin aviso mejoras y/o cambios en los
productos y programas descritos en esta publicacin.
Toda referencia en esta informacin de sitios Web que no pertenecen a IBM se proporciona
solo por comodidad y de ninguna manera sirve como promocin de los citados sitios Web. Los
materiales en esos sitios Web no forman parte de los materiales de este producto de IBM y el uso
de esos sitios Web queda bajo su propia responsabilidad.
IBM puede usar o distribuir cualquier informacin proporcionada por usted del modo que
considere apropiado sin incurrir en obligacin alguna por su parte.
Copyright IBM Corporation 2004, 2011.

262

263
Avisos

Los titulares de licencia de este programa que deseen obtener informacin del mismo para activar:
(i) el intercambio de informacin entre programas creados de forma independiente y otros
programas (incluido este) y (ii) el uso mutuo de la informacin intercambiada, deben ponerse
en contacto con:
IBM Software Group, Attention: Licensing, 233 S. Wacker Dr., Chicago, IL 60606, EE.UU..
Esta informacin puede estar disponible, sujeta a los trminos y condiciones apropiados,
incluyendo en algunos casos el pago de una cantidad.
IBM provee el programa con licencia descrito en este documento y todo el material con
licencia disponible para el mismo bajo los trminos del Contrato IBM con clientes, el Acuerdo
internacional de programas bajo licencia de IBM o cualquier otro contrato equivalente entre
nosotros.
Los datos de funcionamiento contenidos fueron determinados en un entorno controlado. Por tanto,
los resultados obtenidos en otros entornos de funcionamiento pueden variar de forma significativa.
Algunas mediciones se han llevado a cabo en sistemas en fase de desarrollo y no existen garantas
de que esas mediciones se correspondan con las de sistemas disponibles de forma global. Adems,
algunas medidas se han estimado por extrapolacin. Los resultados reales pueden diferir. Los
usuarios de este documento deberan verificar los datos aplicables a su entorno especfico.
La informacin relativa a productos distintos a los de IBM se obtuvo de los proveedores de
esos productos, sus anuncios publicados o cualquier otra fuente a disposicin pblica. IBM
no ha comprobado esos productos y no puede confirmar la precisin de su funcionamiento, su
compatibilidad o cualquier otra cuestin relacionada con productos que no son de IBM. Las
preguntas relativas a la capacidad de productos que no son de IBM debern ser remitidas a los
proveedores de dichos productos.
Esta informacin contiene ejemplos de datos e informes usados en operaciones comerciales
diarias. Para ilustrarlos lo mejor posible, los ejemplos incluyen nombres de personas, empresas,
marcas y productos. Todos estos nombres son ficticios y cualquier parecido con los nombres y
direcciones de una empresa comercial existente es mera coincidencia.
Si est viendo esta informacin en una copia electrnica, puede que no aparezcan las fotografas
ni las ilustraciones en color.
Marcas comerciales

IBM, el logotipo de IBM, ibm.com y SPSS son marcas comerciales de IBM Corporation,
registradas en muchas jurisdicciones de todo el mundo. Existe una lista actualizada de marcas
comerciales de IBM en Internet en http://www.ibm.com/legal/copytrade.shtml.
Adobe, el logotipo Adobe, PostScript y el logotipo PostScript son marcas registradas o marcas
comerciales de Adobe Systems Incorporated en Estados Unidos y/u otros pases.
Intel, el logotipo de Intel, Intel Inside, el logotipo de Intel Inside, Intel Centrino, el logotipo de
Intel Centrino, Celeron, Intel Xeon, Intel SpeedStep, Itanium y Pentium son marcas comerciales o
marcas registradas de Intel Corporation o sus filiales en Estados Unidos y otros pases.
Linux es una marca registrada de Linus Torvalds en Estados Unidos, otros pases o ambos.
Microsoft, Windows, Windows NT, y el logotipo de Windows son marcas comerciales de
Microsoft Corporation en Estados Unidos, otros pases o ambos.

264
Apndice B

UNIX es una marca registrada de The Open Group en Estados Unidos y otros pases.
Java y todas las marcas comerciales y los logotipos basados en Java son marcas comerciales de
Sun Microsystems, Inc. en Estados Unidos, otros pases o ambos.
Capturas de pantalla de productos de Microsoft reimpresas con permiso de Microsoft Corporation.
Otros productos y nombres de servicio pueden ser marcas comerciales de IBM u otras empresas.

ndice
! smbolos ^ * $ en sinnimos, 228
abreviaturas, 242243
abrir proyectos, 47
activacin de entidades no lingsticas, 241
actualizacin
bibliotecas, 210, 212
grficos, 167
plantillas, 193
actualizacin de grficos, 167
adaptacin
errores de puntuacin, 84
errores ortogrficos, 84
adicin
bibliotecas pblicas, 204
conceptos en categoras, 157
descriptores, 104
elementos opcionales, 229
sinnimos, 87, 227
sinnimos para el japons, 259
sonidos, 19, 21
trminos en diccionarios de tipo, 219
trminos en diccionarios de tipo del japons, 252
trminos para la lista de exclusin, 232
tipos, 89
administracin
bibliotecas locales, 206
bibliotecas pblicas, 208
categoras, 156
agrupacin difusa (excepciones), 84, 233, 236
ajuste de columna, 19
ajustes -automticos-, 173
almacenamiento
guardar proyectos automticamente, 18
proyectos, 51
recursos, 197
recursos como plantillas, 193
resultados de la extraccin, 85
aminocidos (entidad no lingstica), 237
ampliacin de categoras, 125
anlisis de dependencias, 247248
anlisis de impresiones, 247248
opciones, 248
anlisis de texto, 3, 78, 11
anlisis secundario
anlisis de dependencias, 247
anlisis de impresiones, 247
AND, operador de regla, 154
anotaciones
para categoras, 108, 156
para proyectos, 48
antienlaces, 117
Archivos Excel .xls/.xlsx, 53, 56
Archivos Excel Microsoft Excel.xls/.xlsx
importacin de categoras predefinidas, 131

archivos recuperados, 18
arrastrar y soltar, 131
asignacin de nombres
bibliotecas, 206
categoras, 108, 156
diccionarios de tipo, 223
asignar marcas, 74
asterisco (*)
diccionario de exclusin , 232
sinnimos, 228
avisos legales, 262
barras de estado, 75
biblioteca Budget, 216
bibliotecas, 15, 202, 215
actualizacin, 212
adicin, 204
asignacin de nombres, 206
aviso de sincronizacin de bibliotecas, 210
biblioteca Budget, 216
bibliotecas enviadas por defecto, 202
bibliotecas locales, 210
bibliotecas pblicas, 210
cambio de nombre, 206
compartimiento y publicacin, 210
compartir, 74
Core library, 216
creacin, 203
desactivacin, 207
diccionarios, 202
eliminacin, 207, 209
enlace, 204
exportacin, 209
importacin, 208
Opinions library, 216
publicar, 51, 211
sincronizacin, 210
vista, 206
bibliotecas enviadas (por defecto), 202
bibliotecas por defecto, 202
botn mostrar, 96
botn recuento, 96
buscar y reemplazar (recursos avanzados), 234235
bsqueda de trminos y tipos, 205
cambio
origen de datos, 61
plantillas, 194
cambio de nombre
bibliotecas, 206
categoras, 130, 156
diccionarios de tipo, 223
plantillas de recursos, 195
proyectos, 51
265

266
ndice

caractersticas nuevas, 1
categoras, 26, 9394, 107, 156
adicin a, 157
ampliacin, 118, 125
anotaciones, 108, 156
cambio de nombre, 130
copia, 164
creacin, 101, 123, 131
creacin de categoras vacas nuevas, 130
creacin manual, 129
descriptores, 102, 104, 108
desplazamiento, 159
edicin, 156, 158
eliminacin, 166
estrategias, 101
etiquetas, 108, 156
exportacin, 53
forzado de palabras, 162
forzado de respuestas, 161
fusin, 160
generacin, 6, 110, 113, 115, 118, 127
grfico de malla, 167
grficos similares, 167
impresin, 164
nombres, 108, 156
paquetes de anlisis de texto, 41, 43
propiedades, 108, 156
recuento, 96
refinamiento de los resultados, 9, 156
relevancia, 9899
categoras lxicas, 242243
categoras nuevas, 130
categoras predefinidas, 131132, 142
formato compacto, 138
formato con sangrado, 140
formato de lista plana, 137
categorizacin, 6, 93, 250
derivacin de raz de conceptos, 113, 118
inclusin de conceptos, 113, 118, 120
manual, 129
mtodos, 101
redes semnticas, 113, 118, 121
reglas de co-ocurrencia, 113, 118, 122
tcnicas de frecuencia, 123
tcnicas lingsticas, 110, 125
uso de tcnicas de agrupacin, 113
utilizacin de tcnicas, 118
clasificacin natural, 50
coincidencia de texto, 108, 156, 162
color de fuente, 218, 259
colores
diccionario de exclusin, 232
establecimiento de opciones de color, 19
para barras de grficos de resumen, 60
para tipos y trminos, 218, 259
sinnimos, 229
colores personalizados, 19

columna de documentos, 9596


combinacin de categoras, 160
compartimiento de bibliotecas, 210
actualizacin, 212
adicin de bibliotecas pblicas, 204
publicar, 51, 211
compartir proyectos, 74
configuracin, 17, 19, 21
conglomerado, 186
coordenadas polares, 182
copia
categoras, 164
copia de seguridad de recursos, 197
copia de visualizaciones, 187
Core library, 216
correo electrnico (entidad no lingstica), 237
creacin
bibliotecas, 203
categoras, 101, 110, 131
categoras con reglas, 146
diccionarios de tipo, 217, 258
elementos opcionales, 229
entradas del diccionario de exclusin, 232
plantilla a partir de los recursos, 193
proyectos, 28
reglas de categora, 145146, 153
sinnimos, 8687, 227
sinnimos para el japons, 259
tipos, 89
creacin de plantillas a partir de recursos, 193
datos
actualizacin, 72
archivos IBM SPSS Statistics.sav, 53
cambiar el origen de datos, 61
categorizacin, 93, 110, 129
editar propiedades de variables, 50
exportacin, 53
extraccin, 82
generacin de categora, 6, 113, 115, 118, 125
IBM SPSS Data Collection, 34, 54, 67
IBM SPSS Statistics archivos .sav, 30, 54, 63
Microsoft Excel Archivos Excel .xls/.xlsx, 31, 53, 56, 64
ODBC, 33, 66
ordenacin, 50
refinamiento de los resultados, 86
seleccin de los orgenes de datos, 29, 62
vista, 49
datos de encuesta, 2, 2627, 34, 67
definiciones, 102, 108
definiciones forzadas, 242243
delimitador, 18
delimitador global, 18
desactivacin
barras de estado, 75
bibliotecas, 207
diccionarios de exclusin, 232

267
ndice

diccionarios de sinnimos, 236


diccionarios de sustitucin, 230
diccionarios de tipo, 225
entidades no lingsticas, 241
desactivacin de entidades no lingsticas, 241
descriptores, 95
categoras, 102, 108
edicin en categoras, 158
seleccin de los mejores, 104
desplazamiento
categoras, 159
diccionarios de tipo, 224
diccionario de exclusin, 202, 231232
diccionario de sustitucin, 202, 225, 229230
diccionario de tipo, 202
adicin de trminos, 219
adicin de trminos para el japons, 252
cambio de nombre, 223
creacin de tipos, 217, 258
desactivacin, 225
desplazamiento, 224
elementos opcionales, 215
eliminacin, 225
forzado de trminos, 222
sinnimos, 215
tipos incorporados, 216
diccionario de tipo Budget, 216
diccionario de tipo Location, 216
diccionario de tipo Negative, 216
diccionario de tipo Organization, 216
diccionario de tipo Person, 216
diccionario de tipo Positive, 216
diccionario de tipo Product, 216
diccionario de tipo Uncertain, 216
diccionario de tipo Unknown, 216
diccionarios, 15, 215
excluidos, 202, 215, 231
sustituciones, 202, 215, 225
tipos, 202, 215
dgitos (entidad no lingstica), 237
direcciones (entidad no lingstica), 237
direcciones IP (entidad no lingstica), 237
distancia mxima de bsqueda, 116, 122, 128
edicin
categoras, 156, 158
propiedades, 156
refinado de los resultados de la extraccin, 86
reglas de categora, 155
edicin de grficos
tamao de los elementos grficos, 176
edicin de visualizaciones, 171
adicin de efectos 3-D, 182
categoras, 180
colores y tramas, 174
combinacin de categoras, 180
configuracin automtica, 172

contraccin de categoras, 180


ejes, 178
escalas, 178
estilo de guin, 174
exclusin de categoras, 180
forma de puntos, 175
formatos de numeracin, 177
mrgenes, 177
ordenacin de categoras, 180
paneles, 182
posicin de la leyenda, 187
reglas, 172
relacin de aspecto de puntos, 175
relleno, 177
rotacin de puntos, 175
texto, 173
transformacin de los sistemas de coordenadas, 182
transparencia, 174
transponer, 182
nica, 172
editor de recursos, 11, 193194, 233
actualizacin de plantillas, 193
cambio de recursos, 194
creacin de plantillas, 193
opcin del delimitador global, 18
para el japons, 250
elementos grficos
cambio, 183
conversin, 183
modificadores de colisin, 186
tipos, 184
elementos opcionales, 225
adicin, 229
definicin de, 227
eliminacin de entradas, 230
objetivo, 229
eliminacin
bibliotecas, 207, 209
categoras, 166
desactivacin de bibliotecas, 207
diccionarios de tipo, 225
elementos opcionales, 230
entradas excluidas, 232
plantillas de recursos, 195
reglas de categora, 155
sinnimos, 230
entidades no lingsticas, 85
activacin y desactivacin, 241
aminocidos, 237
dgitos, 237
direcciones, 237
direcciones de correo electrnico, 237
direcciones de HTTP/URL, 237
direcciones IP, 237
expresiones regulares, RegExp.ini, 238
fechas, 237
horas, 237

268
ndice

monedas, 237
normalizacin, NonLingNorm.ini, 240
nmeros de la seguridad social, 237
nmeros de telfono, 237
pesos y medidas, 237
porcentajes, 237
protenas, 237
errores de puntuacin, 84
errores ortogrficos, 27, 84, 236
esquivar, 186
estadsticos
descripciones, 184
edicin de visualizaciones, 184
estructuracin en componentes, 119
estructuracin en componentes de los trminos, 119
etiquetas para las categoras, 108, 156
excepciones de enlace, 117
exclusin
conceptos de la extraccin, 91
de enlaces de categora, 117
de exclusin difusa, 236
desactivacin de bibliotecas, 207
desactivacin de diccionarios, 225, 230
desactivacin de entradas de exclusin, 232
exportacin, 53
bibliotecas pblicas, 209
categoras predefinidas, 142
como archivos IBM SPSS Statistics.sav, 54
como archivos Microsoft Excel.xls/.xlsx, 56
formatos de resultados, 53
grficos de resumen, 58
paraIBM SPSS Data Collection, 54
plantillas, 196
resultados de la categorizacin, 5354, 56
extraccin, 3, 78, 82, 84, 202, 215, 245
almacenamiento de resultados, 85
conceptos, tipos y patrones, 78
entidades no lingsticas, 85
forzado de palabras, 92
refinamiento de los resultados, 9, 86
resultados, 26
unitrminos, 4, 85, 246
fechas (entidad no lingstica), 237
fiabilidad, 8
filtrado de bibliotecas, 206
forma plural de las palabras, 218
formas declinadas, 119, 215, 217219, 258
formato compacto, 138
formato con sangrado, 140
formato de lista plana, 137
forzado
extraccin de conceptos, 92
forzar dentro, 97
forzar fuera, 97
mostrar columnas, 97
palabras en categoras, 162

respuestas, 161
trminos, 222
frecuencia, 123
frecuencia de tipo, 123
fusin de categoras, 160
generacin de categora, 6, 110, 113, 250
excepciones de enlace de clasificacin, 117
tcnica de derivacin de raz de conceptos, 6, 115, 128
tcnica de inclusin de conceptos, 128
tcnica de redes semnticas, 6, 115, 128
tcnica de reglas de co-ocurrencia, 6, 115, 128
utilizacin de tcnicas, 6, 115
generacin de categoras, 6, 110111, 113116, 118125,
127, 129, 250
tcnicas de agrupacin entre iguales, 127
generar formas declinadas, 215, 217219, 258
grfico de barras de categoras, 167168
grfico/tabla de malla de categoras, 167, 169170
grficos, 167
actualizacin, 167
edicin, 171
exportacin de grficos de resumen, 58
grfico de malla de categoras, 167
modo de exploracin, 170
tamao de los elementos grficos, 176
grficos de barras, 167
grficos de malla, 167
grficos de resumen, 58
guardado automtico de proyectos, 18
guardado de resultados de la extraccin, 85
horas (entidad no lingstica), 237
HTTP/URL (entidad no lingstica), 237
IBM SPSS Data Collection, 34, 67
cambiar el origen de datos, 61
exportacin, 54
IBM SPSS Statistics archivos .sav, 30, 63
cambiar el origen de datos, 61
exportacin, 54
formato de resultados, 53
importacin
actualizar datos, 72
bibliotecas pblicas, 208
categoras predefinidas, 132
datos de entrada, 34, 67
ODBC, 32, 65
plantillas, 196
preparacin de datos, 27
volver a importar los datos, 61
impresin de categoras, 164
informes y grficos de resumen, 58
Japons, 245, 250
Editor de recursos, 250

269
ndice

propiedades de tipo, 258


tipos, 254, 260261
jitter, 186
Language Weaver, 22, 36, 70
leyenda
posicin, 187
*.lib, 208
marca de completo, 74
marca de importante, 74
marcar respuestas, 74
marcas comerciales, 263
marcos de cdigo, 131132
Microsoft Excel Archivos Excel .xls/.xlsx, 31, 56, 64
cambiar el origen de datos, 61
exportacin de categoras predefinidas, 142
formato de resultados, 53
importacin de categoras predefinidas, 132
minera de datos de texto, 3
modificadores de colisin, 183
modo de edicin, 171
modo de exploracin, 170
monedas (entidad no lingstica), 237
mostrar columnas en el panel categoras, 95
mostrar columnas en el panel de datos, 97
nombre de categora, 95
normalizacin, 240
NOT, operador de regla, 154
novedades, 1
nmero de la seguridad social (entidad no lingstica), 237
nmero mximo de categoras para crear., 116
nmeros de telfono (entidad no lingstica), 237
opcin de coincidencia, 215, 217, 219221, 258
opciones, 17
mostrar, 19
sistema, 18
sonido, 21
traduccin, 22
opciones de sonido, 21
operadores booleanos, 154
operadores de regla & | !() , 154
Opinions library, 216
OR, operador de regla, 154
ordenar datos y variables, 50
origen de datos ODBC, 3233, 61, 6566
paletas
desplazamiento, 172
ocultacin, 172
representacin, 172
panel Categoras, 94
panel Datos, 97
botn mostrar, 96

panel Visualizacin
actualizacin de grficos, 167
grfico de malla de categoras, 167
paquetes de anlisis de texto, 37, 4143
paquetes de anlisis de texto *.tap, 37, 4143, 46
pasar por alto conceptos, 91
patrones, 78, 81
patrones de extraccin, 242
permutaciones, 85
pesos/medidas (entidad no lingstica), 237
pila, 186
plantillas, 4, 190, 246
actualizacin o accin de guardar como, 193
cambio de nombre, 195
cambio de recursos, 194
copia de seguridad, 197
creacin a partir de recursos, 193
eliminacin, 195
importacin y exportacin, 196
restauracin, 197
TLA, 194
plantillas de recursos, 4, 190, 246
porcentajes (entidad no lingstica), 237
preferencias, 17, 19, 21
pregunta con final abierto, 2
pregunta con final cerrado, 2
preparacin de los datos, 27
propiedades
categoras, 108, 156
para tipos del japons, 258
proyectos, 48
variables, 50
protenas (entidad no lingstica), 237
proyectos, 26, 47
almacenamiento, 51
apertura, 47
barra de estado, 75
cambio de nombre, 51
compartir, 74
creacin, 28
opciones para bibliotecas, 18
origen de datos, 29, 62
paquetes de anlisis de texto, 37
propiedades, 48
seleccin de categoras y recursos, 37
seleccin de variables, 34, 67
traduccin, 36, 70
volver a utilizar categoras, 164
publicar, 51, 211
adicin de bibliotecas pblicas, 204
bibliotecas, 210
recuento, 96
recuperacin de archivos, 18
recursos
bibliotecas enviadas por defecto, 202
cambio de los recursos de una plantilla, 194

270
ndice

copia de seguridad, 197


edicin de recursos avanzados, 233
restauracin, 197
recursos avanzados, 233
buscar y reemplazar en el editor, 234235
recursos lingsticos, 26, 202
paquetes de anlisis de texto, 41, 43
plantillas de recursos, 190
refinamiento de los resultados
adicin de conceptos a tipos, 89
adicin de sinnimos, 87
categoras, 9, 156
creacin de tipos, 89
exclusin de conceptos, 91
forzado de extraccin de conceptos, 92
resultados de la extraccin, 9, 86
registros, 97
reglas
creacin, 153
edicin, 155
eliminacin, 155
operadores booleanos, 154
sintaxis, 146
tcnica de reglas de co-ocurrencia, 122
reglas de categora, 145146, 151, 153155
de la co-ocurrencia de conceptos, 6, 114115, 118, 122,
128
de sinnimos, 6, 113115, 118, 125, 128
ejemplos, 151
reglas de co-ocurrencia, 113, 118, 125
sintaxis, 146
relevancia de las respuestas y categoras, 9899
respuestas, 97
forzar dentro de categoras, 161
marcar, 74
marcar como completas, 74
respuestas en blanco, 27
respuestas vacas, 27
restauracin de recursos, 197
secciones de gestin de idiomas, 233, 242
abreviaturas, 242243
definiciones forzadas, 242243
patrones de extraccin, 242
seguimiento de respuestas, 74
separadores, 18
separadores de texto, 18
signo de dlar ($), 228
signo de exclamacin (!), 228
silenciado de sonidos, 21
smbolo de intercalacin (^), 228
sin categorizar, 95
sincronizacin de bibliotecas, 210212
sinnimos, 86, 225
! smbolos ^ * $, 228
adicin, 87, 227, 259
agrupacin difusa (excepciones), 84, 236

colores, 229
definicin de, 226
eliminacin de entradas, 230
para textos en japons, 259
trminos objetivo, 227, 259
sistemas de coordenadas
transformacin, 182
superiores
adicin a las categoras, 102, 108, 157
adicin a tipos, 89
creacin de tipos, 86
en categoras, 102, 108
exclusin de la extraccin, 91
extraccin, 78
forzado en la extraccin, 92
los mejores descriptores, 104
supervisar, 74
sustitucin de recursos por una plantilla, 194
tabla de malla, 167
tcnica de derivacin de raz de conceptos, 113, 118, 125,
128
tcnica de inclusin de conceptos, 7, 113, 115, 118, 120,
125
tcnica de redes semnticas, 7, 113, 115, 118, 121, 125, 128
tcnica de reglas de co-ocurrencia, 7, 113, 115, 118, 122,
125, 128
tcnicas
arrastrar y soltar, 131
derivacin de raz de conceptos, 113, 118, 125
frecuencia, 123
inclusin de conceptos, 113, 118, 120, 125
redes semnticas, 113, 118, 121, 125
reglas de co-ocurrencia, 113, 118, 122, 125
tcnicas lingsticas, 3, 6, 8, 115
trminos
adicin a tipos, 219
adicin a tipos del japons, 252
adicin en el diccionario de exclusin, 232
bsqueda en el editor, 205
color, 218, 259
formas declinadas, 215
forzado de palabras dentro de categoras, 162
forzado de trminos, 222
opciones de coincidencia, 215
trminos objetivo, 229
tipos, 215
adicin de conceptos, 86
bsqueda en el editor, 205
color por defecto, 19, 218, 259
creacin, 217, 258
diccionarios, 202
extraccin, 78
frecuencia de tipo, 123
para el japons, 254, 258, 260261
tipos incorporados, 216
ttulos para el grfico de resumen de exportacin, 60

271
ndice

TLA, 194
todos los documentos, 95
traduccin, 22, 72
dilogo de configuracin de traduccin, 72
dilogo opciones, pestaa traduccin, 22
traduccin al ingls, 36, 70, 72
valor de precisin de la traduccin, 37, 71, 73
unitrminos, 85
valor de enlace mnimo, 116
variables
actualizacin, 72
cambiar el origen de datos, 61
coincidencia, 69
editar propiedades, 50
exportacin, 53
importacin, 30, 32, 63, 65
variables de ID, 2627, 34, 67
variables de referencia, 2627, 34, 67
variables de texto, 2627, 34, 67
variables de ID, 2627, 34, 67
variables de referencia, 2627, 34, 67
variables de texto, 2627, 34, 67
vista
bibliotecas, 206
categoras, 167
datos, 49
vista de pregunta, 1112
vista del proyecto completo, 11, 14
vistas
proyecto completo, 14
ventana Anlisis de texto, 11
ventana del editor de recursos, 15
vista de pregunta, 12
visualizaciones
categoras, 180
colores y tramas, 174
copia, 187
edicin, 171
ejes, 178
escalas, 178
estilos de guin, 174
forma de puntos, 175
formatos de numeracin, 177
mrgenes, 177
paneles, 180, 182
posicin de la leyenda, 187
relacin de aspecto de puntos, 175
relleno, 177
rotacin de puntos, 175
texto, 173
transformacin de los sistemas de coordenadas, 182
transparencia, 174
transponer, 180, 182
volver a importar los datos, 61

volver a utilizar
categoras, 164