Академический Документы
Профессиональный Документы
Культура Документы
Índice
Agradecimientos
Capítulo 1. Introducción
En cualquier estudio que requiera de un análisis estadístico, existen diversas etapas que
marcan la diferencia entre la buena y mala calidad de los resultados que se obtienen del
mismo.
En primer lugar el objetivo u objetivos del estudio deben estar definidos con clari-
dad. Es imposible efectuar un análisis estadístico de calidad si a priori no se conocen
los objetivos generales y parciales de la investigación que se plantea. Las hipótesis a
contrastar quedarían indefinidas y, por lo tanto, sólo cabría realizar un mero análisis des-
criptivo.
Un segundo aspecto que marcaría, en gran manera, la calidad de un trabajo es el que
comporta la definición de las variables y la recogida de la información precisa para ana-
lizarlas. A menudo, una definición deficiente de las variables que conforman un estudio
es consecuencia de que, en el mismo, no existen objetivos claros.
De cualquier forma, deben estar bien definidos aspectos como el tipo y el nivel de
medición de las variables, es decir si la información se ha recogido de forma categórica,
nominal u ordinal, o bien de forma continua.
Por ejemplo, no es lo mismo estudiar la variable hábito tabáquico a través de una varia-
ble categórica que puede tener tres categorías, no fumador, exfumador o fumador, que
utilizar una variable cuantitativa definida como el número de cigarrillos que se fuman
diariamente, variable de la que no podría extraerse a posteriori si una persona había sido
fumadora.
Así mismo, la reflexión previa de si la información se piensa sistematizar en for-
mato numérico o en formato alfanumérico puede facilitar y reducir considerablemente
el tiempo de análisis. Esto, como se verá en el capítulo dedicado a la creación y trans-
formación de variables, es debido a que la mayoría de los paquetes estadísticos de mayor
uso están optimizados para el uso de variables cuantitativas o con definición numérica
de sus categorías.
Todos estos aspectos requieren de la presencia del responsable del análisis desde las
fases previas de diseño del estudio. En muchas ocasiones, sin embargo, el estadístico
responsable interviene en el estudio una vez recolectados los datos, sin haber podido
participar ni en la definición de la naturaleza de las variables ni en la de la estructura glo-
bal de la matriz de datos.
Esta última puede tener diversas estructuras y en muchas ocasiones no es analiza-
ble directamente, requiriendo transformaciones y manipulaciones del o de los ficheros
que contienen la información del estudio. Así, podemos tener información de determi-
nados grupos de casos en un archivo, las variables de cada caso en otros archivos y con
variables adicionales en ficheros complementarios.
Generalmente, el estadístico no debería dar por supuesto ningún tipo de garantías
ofrecidas acerca de la calidad de los datos y como mínimo debe efectuar un análisis pre-
vio de la información incompleta e incluso de la información errónea detectable.
Solamente después de haber definido la estructura definitiva de la matriz de datos y
8 Materials Albert Navarro; Miguel Martín
de haber realizado el control de calidad de los datos disponibles, es cuando puede abor-
darse el análisis estadístico de los mismos.
Para dar respuesta a todos los aspectos enumerados anteriormente, el analista debe
recurrir al uso de programas o paquetes estadísticos, preferentemente homologados y
de distribución amplia, de forma que los resultados obtenidos sean siempre comproba-
bles y comparables por cualquier otro investigador.
Existen diversos programas o paquetes estadísticos que permiten no sólo efectuar
un análisis de datos sino también manipular y gestionar las matrices de datos. En con-
creto en este libro se muestra cómo utilizar el paquete SPSS en el entorno Windows,
intentando acercarse a su uso de una forma profesional, es decir, no sólo explicando las
aplicaciones preprogramadas que se muestran en los menús desplegables del programa
sino también la sintaxis de dichas instrucciones. Este esquema, además de permitir una
utilización consciente de los análisis que se están realizando, permite diversas posibili-
dades que precisamente son las que distinguen a un profesional de un conocedor super-
ficial de paquetes estadísticos. Así, trabajar mediante instrucciones de sintaxis permite
entre otras posibilidades la utilización de recursos de análisis o de descripción que no
existen de forma preprogramada, o también la de crear programas aplicables en diver-
sas ocasiones sin necesidad de repetir el proceso de generación del análisis, asegurán-
dose por lo tanto de que el análisis es siempre el mismo.
especial con SPSS, quieran profundizar en su uso. En este entorno profesional, también
es frecuente que al intentar manipular archivos de datos clínicos o epidemiológicos, el
profesional de salud se encuentre con una complejidad muy superior a la de los archi-
vos con los que usualmente se efectúa la docencia de estadística y de los paquetes de aná-
lisis. A estos profesionales, este libro les mostrará, en la práctica, cómo se manejan dife-
rentes bases de datos tanto en estructura como en el tipo de soporte con el fin de lograr
la base de datos única que refleje la información necesaria para la descripción y análi-
sis de su problema de estudio.
Los ejemplos que se desarrollan a lo largo de este estudio están centrados en el
ámbito de la epidemiología, campo en el que los autores han desarrollado la mayoría de
su actividad profesional; no obstante, la complejidad de situaciones considerada a la
hora de manipular archivos complejos hace que el interés sea inmediato para cualquier
profesional que requiera la combinación de diferentes archivos de datos.
Por último, a pesar de que el libro está dirigido a personas con una perspectiva pro-
fesional y de profundización de conceptos, esta obra puede servir de inicio para cualquier
estudiante que quiera formarse de una manera sólida en el uso de un paquete estadístico
como herramienta de análisis de información estructurada en archivos complejos e infor-
mación distribuida en diferentes ficheros. Esto es así puesto que su desarrollo parte desde
el principio básico del desconocimiento del uso de un paquete estadístico, sin dar por
supuesto ningún conocimiento previo de la materia. Por esta misma razón considera-
mos que puede ser de gran utilidad, como guía de enseñanza, para cualquier docente
implicado en el tema del análisis de datos.
El presente libro está estructurado de forma que el lector vaya adquiriendo los conoci-
mientos generales de uso de un paquete estadístico a partir de un ejemplo de análisis de
los datos de un estudio real.
En ningún caso se ha pretendido la elaboración de un manual simplificado, ni suplir
el sistema de ayuda que ofrece cualquier paquete estadístico interactivo, sino ofrecer
una guía de autoaprendizaje a partir de un caso concreto, el cual se ha modificado lige-
ramente para adecuarlo al objetivo académico del libro. El proceso recomendado es, por
lo tanto, el seguimiento ordenado de los capítulos del libro, si bien existen dos recorri-
dos diferenciados que, según sea el conocimiento y nivel de práctica del lector, podrían
superponerse.
El primer recorrido, más profesional, sería el que va indicando las distintas instruc-
ciones de Sintaxis de cada apartado. La ejecución adecuada de los mismos es la que
permite ir avanzando en la resolución del ejercicio práctico. Se han utilizado distintos
formatos de letra, recuadros y sombreados para facilitar la comprensión al lector. En
cada capítulo, además, se ofrece una solución de sintaxis para el logro de los objetivos
descritos.
El segundo recorrido, indicado con el epígrafe de Ventanas, introduce al lector en
el uso de los menús desplegables y en el trabajo clásico del entorno Windows. Tal y
como se plantea, se anima al lector a que, utilizando la opción de Pegar presente en casi
todas las ventanas descritas, pueda ir generando la sintaxis sin necesidad explícita de
escribirla, ya sea para su uso posterior o bien para compararla con la que haya escrito
en la ventana de sintaxis. Es decir, el lector puede efectuar el recorrido de manera para-
lela, comparando en cada caso los términos de la sintaxis que él mismo deduce de la
explicación del texto y la generada de forma automática por el uso de las ventanas.
10 Materials Albert Navarro; Miguel Martín
Siguiendo este doble esquema, en primer lugar se describen las diferentes formas
de definir la matriz de datos y su exportación e importación a otros sistemas de análi-
sis.
A continuación se describen los procedimientos para la definición de variables.
Seguidamente se exponen los pasos necesarios para combinar casos y variables de
distintos ficheros, así como para la selección temporal o definitiva de casos y las opcio-
nes para efectuar el mismo análisis diversas veces en función de un factor.
Un cuarto bloque hace referencia a cómo crear nuevas variables y cómo modificar
las ya existentes.
El siguiente bloque consiste en la exploración de los análisis descriptivos uni y biva-
riados más frecuentes, destacando también la fase previa del control de calidad de los
datos.
Por último, se muestra la importancia de la creación de macros o programas de apli-
cación frecuente.
Se pretende que, con este esquema, la resolución de todas las fases descritas en el
caso real que se utiliza de ejemplo muestre todos aquellos problemas y dificultades pre-
sentes en el trabajo que un analista de datos desarrolla cotidianamente.
El control profesional de las actuaciones que hay que realizar para resolver estos
problemas es otro de los objetivos de este libro, por lo que en todos los ejemplos se
muestran, tal y como se ha comentado anteriormente, las acciones a tomar bajo dos pun-
tos de vista, el automático mediante el uso de ventanas y el consistente en la utilización
de la sintaxis.
El ejercicio práctico sobre el que se desarrolla este libro corresponde a un estudio que
se deriva de una encuesta de salud realizada por el Departamento de Salud del Colegio
de la Frontera Sur (ECOSUR), en San Cristóbal de las Casas en el estado mexicano de
Chiapas.
La encuesta desarrollaba distintos aspectos que pudiesen delimitar de forma cuan-
titativa los problemas de salud de una zona del estado chiapaneco, la Región Fraylesca,
con el fin de aportar elementos objetivos para la planificación y mejora de los servicios
de salud en la zona.
De todos los aspectos que se investigaban, en este ejercicio se trabaja con la infor-
mación referente al estado nutricional de la población infantil.
La desnutrición sigue siendo uno de los principales problemas de salud pública que afec-
tan a la población infantil de México.1, 2 Este problema, ya importante en sí mismo, se
agrava si se tiene en cuenta que, de forma directa o indirecta, es uno de los factores aso-
ciados a la mayoría de muertes evitables en este estrato de población.
El fenómeno de la desnutrición está asociado, evidentemente, al subdesarrollo eco-
nómico y, en los últimos años, en las zonas pobres sólo se observan pequeños descen-
sos en la desnutrición infantil. De hecho, las zonas que siempre han tenido una mayor
marginación socioeconómica, son las que presentan los niveles más altos de desnutrición
y un mayor deterioro de las condiciones de vida. Dentro de estas zonas se encuentra el
estado de Chiapas.1
Uso profesional del SPSS Materials 11
La mortalidad infantil por 1000 nacimientos esperados es de 30,6, tasa que corres-
ponde al cuarto peor puesto del país.
La tasa de mortalidad en menores de cinco años es de las más altas de México, 5,4
por 1000 habitantes.
La mortalidad asociada a deficiencias de la nutrición es en el estado de Chiapas un
45% superior a la del resto de México.3
En todos los estudios realizados por la Encuesta Nacional de Nutrición en el Medio
Rural y por el Instituto Nacional Indigenista, se muestra una considerable evidencia de
la relación entre desnutrición y mortalidad en menores. Así se considera que, a grandes
rasgos, más de la mitad de las muertes de menores de cinco años en Latinoamérica son
debidas a esta causa, con la circunstancia agravante de que, para la mayoría de la pobla-
ción afectada, la desnutrición no se considera un problema de salud.
Basándose en estos datos y en estudios previos realizados en México4 se pretende
analizar, a partir de los resultados de una encuesta de salud realizada en la región La
Fraylesca del estado mexicano de Chiapas, la adecuación alimentaria en niños de 12 a
59 meses de edad, a partir de la ingesta proteica diaria y señalar los factores socioeco-
nómicos asociados a los grupos poblacionales de mayor riesgo de desnutrición.
Fuente: http://www.fortunecity.com/boozers/jerusalem/99/id16.htm
Bibliografía
3 F UENTE , J.R. De la; L IMÓN -R OJAS , M.; F UENTES -A LCALÁ , M.L.;, G UERRERO -
V ILLALOBOS , G. Programa nacional de Acción en Favor de la Infancia. Secreta-
ría Técnica. Serie Documentos Técnicos núm. 2, 1996.
4. B OERMA , J.T.; S OMMERFELD , A.E.; B ICEGO , G.T. «Child Anthropometry in
Cross-sectional Surveys in Developing Countries: An assesment of the Survivor
Bias». American Journal of Epidemiology. 1992; 135:428-437.
5. OCHOA DÍAZ, H.; SÁNCHEZ-PÉREZ, H.J.; RUIZ-FLORES, M.; FULLER, M. Social ine-
qualities and health in rural Chiapas, México: Agricultural economy, nutrition and
child health in the Fraylesca Region. Cad. Saúde Pública (Rio do Janeiro, Brasil)
1999; 15 (1): 789-798.
6. SÁNCHEZ-PÉREZ, H.J.; OCHOA-DÍAZ, H.; GARCÍA, G.M.; MARTÍN, M.M. Bienestar
social y servicios de salud en la Región Fraylesca de Chiapas: El uso de los servi-
cios de atención prenatal. Salud Pública Méx., 1997; 39: 530-538.
7. SÁNCHEZ-PÉREZ, H.J.; OCHOA-DÍAZ, H.; NAVARRO I GINÉ, A.; MARTÍN, M.M. La aten-
ción al parto en Chiapas, México: ¿dónde y quién los atiende? Salud Pública Méx.,
1998; 40: 494-502.
Uso profesional del SPSS Materials 15
didad del investigador o responsable del proyecto de estudio. Así era muy frecuente que
en los archivos de datos la información se encontrase sin codificar y las variables estu-
viesen definidas en formatos alfanuméricos, en registros de longitud variable, con cri-
terios confusos acerca de lo que significa el No sabe / No contesta frente a No se pre-
guntó, a variables con número de categorías no cerrado, etc. Debido a la capacidad de
resolución de problemas de este estilo, el paquete SPSS sigue siendo uno de los más fle-
xibles y fáciles de usar en el manejo de matrices de datos y sus transformaciones.
De todas formas, en este libro se pretende introducir el uso de este paquete estadís-
tico de manera tal que el paso a otro programa o a otro paquete no represente más que
cambiar la forma de efectuar los análisis pero no los conceptos de funcionamiento de un
paquete estadístico en general, y por supuesto que el cambio de versión del SPSS, cam-
bio lógico de evolución de cualquier producto informático, no signifique ningún esfuerzo
apreciable en el usuario al que va dirigido este libro. Por esta razón, como se irá haciendo
énfasis a lo largo de todos los capítulos, se intentará que el usuario profesional entienda
la necesidad de conocer las instrucciones de programación necesarias para efectuar un
tipo de análisis determinado, más allá de la forma habitual de selección de opciones en
menús desplegables tan familiares y estimadas por los usuarios informáticos actuales.
Simultáneamente, todas las acciones que se realizan a lo largo de una sesión pueden
llevarse a cabo desde un archivo de instrucciones, además de llevarlas a cabo de forma
interactiva mediante la selección de los menús desarrollados en las diferentes opciones
de la barra de herramientas. Este fichero, llamado, en la opción Ventana. Editor de Sin-
taxis SPSS, posee por defecto la extensión *.sps. Esta posibilidad, inicialmente, es
molesta para todo aquel acostumbrado a la inmediatez que supone la transmisión de una
orden utilizando el cursor del ratón. Las ventajas que presenta esta forma de trabajar
compensan sin embargo el esfuerzo a acostumbrarse a una rutina diferente.
Dos son las más evidentes. En primer lugar, el tener constancia escrita de las órde-
nes ejecutadas permite conocer si se ha efectuado realmente lo que se pretendía hacer.
Este aspecto que puede parecer excesivamente riguroso y engorroso, facilita la detección
de errores de instrucción en el caso de haberlos cometido. Las opciones que aparecen en
las ventanas de diálogo son numerosas y a menudo poco explicativas, por lo que, con
facilidad, se puede escoger una opción equivocada y posteriormente no recordar dicha
elección.
Así mismo, es la única manera adecuada de comunicar a otro colega, de indicar en
un informe o de recordar de forma detallada qué análisis y cómo se ha efectuado.
La segunda ventaja se refiere a la economía de tiempo. A lo largo de un estudio son
muchos los análisis que deben efectuarse de forma repetitiva, las transformaciones y
recodificaciones de variables que también son, a veces, complejas y tediosas. Si se tie-
nen guardadas en un archivo de instrucciones, no deben repetirse y pueden ejecutarse sobre
otro archivo de datos con mínimas modificaciones, con la doble economía que esto repre-
senta, en tiempo y en posibles errores al duplicar o triplicar la acción de análisis.
Como ejemplo suponga que tiene un archivo de todos los diagnósticos de enferme-
dades observados en un hospital durante un año. La clasificación internacional de enfer-
medades se lleva a cabo con unos códigos alfanuméricos compuestos por una letra y
tres o cuatro números. Suponga que en el estudio se le indica que debe realizar una recla-
sificación de los más de 10.000 diagnósticos que tiene posibles, en quince grupos según
unos criterios que le especifican. El dejar constancia escrita del programa de recodifi-
cación y clasificación le permitirá llevar a cabo esta acción en nuevos archivos de datos
sin esfuerzo y con la seguridad de estar aplicando siempre el mismo criterio.
La creación de este fichero de instrucciones en lenguaje o sintaxis SPSS se puede gene-
rar directamente por el usuario, abriendo un archivo nuevo de sintaxis y mediante el edi-
tor escribir las instrucciones. En el siguiente apartado se indican las normas generales
que rigen la sintaxis en SPSS.
Otra manera habitual de generar la sintaxis es la de ir añadiendo al editor de sinta-
xis todas las acciones que se han ido efectuando mediante la activación de los menús des-
plegados en las ventanas de la barra de herramientas. En todos ellos existe la opción
Pegar, mediante la cual, la selección efectuada con el ratón se transforma en una ins-
trucción de sintaxis en el archivo .sps.
Así como el activar el botón de Aceptar en un menú ejecuta la acción seleccionada,
la selección de una serie de instrucciones en el archivo .sps, y su ejecución, produce el
mismo efecto. Para ello, en la ventana Editor de sintaxis, se seleccionan con el cursor
las instrucciones que interesen, acompañadas al final de la instrucción EXECUTE. Una
vez seleccionadas, activando la tecla de la barra de instrucciones que parece en dicha
ventana, se obtendrá el mismo resultado.
De la acción de ejecutar un conjunto de instrucciones se producen unos resultados,
los cuales, además de aparecer por pantalla, generándose de forma automática otra ven-
tana, se crea un nuevo archivo con extensión .spo, el cual es posteriormente editable y
exportable a otros editores de texto y de gráficos. Existe una opción de que el fichero de
resultados sea de tipo borrador, con extensión .rtf.
18 Materials Albert Navarro; Miguel Martín
Figura 2.1. Esquema de la relación entre el programa SPSS y los archivos que participan en el proceso
de análisis.
SPSS
SPSS
archivo de resultados
*.spo
*.rtf
En la figura 2.1 se muestra un esquema de los tipos de ficheros que se han enun-
ciado hasta el momento. En realidad, el número de ficheros temporales que utiliza el
programa es mayor pero no tienen mayor relevancia para el usuario.
Como puede observarse, el flujo habitual de trabajo consiste en la lectura de un
archivo de datos, los cuales pueden ser de diversos orígenes, en ASCII, (*.dat o *.txt),
estructurados en una base de datos u hoja de cálculo, (*.dbf, *.xls, *.mdb, etc.) o pro-
vinientes de un análisis previo SPSS, (*.sav).
En segundo lugar, la ejecución de un conjunto de instrucciones en lenguaje SPSS,
Uso profesional del SPSS Materials 19
dor encadenará con la siguiente instrucción y, por lo tanto, indicará error de sinta-
xis.
FREQ[UENCIES] [VARIABLES=]varlist
[/FORMAT=[{DVALUE}] [{NOTABLE }]]
{AFREQ } {LIMIT(n)}
{DFREQ }
[/MISSING=INCLUDE]
[/BARCHART=[MIN(n)][MAX(n)][{FREQ(n) }]]
{PERCENT(n)}
Ejemplo. ¿Cuál es la distribución de los clientes de una empresa por tipo de industria?
En los resultados podría observar que el 37,5% de sus clientes pertenece a agencias
gubernamentales, el 24,9% a corporaciones, el 28,1% a instituciones académicas, y el
9,4% a la industria sanitaria. Con respecto a los datos continuos, cuantitativos, como
los ingresos por ventas, podría comprobar que el promedio de ventas de productos es
de 3.576 dólares con una desviación típica de 1.078 dólares.
Estadísticos y gráficos. Frecuencias, porcentajes, porcentajes acumulados, media, mediana,
moda, suma, desviación típica, varianza, amplitud, valores mínimo y máximo, error típico
de la media, asimetría y curtosis (ambos con sus errores típicos), cuartiles, percentiles
especificados por el usuario, gráficos de barras, gráficos de sectores e histogramas.
EXECUTE.
Debe escribirse como última instrucción del conjunto seleccionado y que se pre-
tende ejecutar, si bien sólo es necesaria en ciertas situaciones, como son aquellas en las
que el resultado de la acción implica un cambio en la matriz de datos, como la creación
de una nueva variable, una recodificación, una selección de datos que cumplan una con-
dición determinada.
Así mismo, cuando lo que se pretende es la manipulación de ficheros, sumando infor-
mación de dos o más archivos, o agregando información en uno nuevo, también debe indi-
carse explícitamente como instrucción final EXECUTE.
Ventanas Cuando se trabaja mediante los menús desplegables o ventanas, que es como se conoce
coloquialmente a esta forma de trabajo, se observará que en todas ellas existe la tecla con
el nombre Aceptar, la cual sólo podrá activarse cuando la información que se solicita
desde la ventana abierta o menú desplegado sea la mínima requerida para llevar a cabo
esa acción.
Por ejemplo, en el análisis de frecuencias indicado en el párrafo anterior no podrá
activarse esta tecla hasta que se defina como mínimo una variable de análisis.
22 Materials Albert Navarro; Miguel Martín
Se observará también la presencia de otra tecla que indica Pegar. En este caso, la
acción de ejecución la pospone trasladando las instrucciones seleccionadas mediante el
cursor a la ventana del Editor de sintaxis para ser ejecutadas como instrucciones que se
hubiesen escrito directamente sobre ella. En este caso, para ejecutar estas instrucciones,
deberá seleccionarlas con el cursor y activar la tecla de la barra de herramientas de
dicha ventana.
Este último proceso es el que permite ir guardando todos los pasos efectuados en un
análisis para grabarlos en disco al final de una sesión y poder ejecutarlos en otra ocasión
o repetir un análisis.
Recomendamos que en todos los casos que efectúe un análisis lleve a cabo la acción
de Pegar y ejecutar posteriormente con el fin de tener constancia de las acciones de aná-
lisis efectuadas.
Comentarios Si intenta ejecutar una instrucción sin EXECUTE y dicha instrucción forzosamente lo
requiere, observará como en principio no parece ocurrir nada: por un lado la acción que
esperaba como resultado de dicha instrucción no se ha producido y por otro lado no se
aprecia ningún mensaje de error de forma aparente. Cuando esto ocurre, la única señal
visible para poder reconocer el problema se muestra en la zona derecha de la barra infe-
rior del programa, donde se lee el mensaje «Transformaciones pendientes», tal y como
puede apreciarse en la figura 2.2.
Figura 2.2 . Ejemplo de intento de ejecución de una instrucción de sintaxis sin la inclusión del corres-
pondiente EXECUTE.
Uso profesional del SPSS Materials 23
Sintaxis La relación completa de las posibles modificaciones a través de la sintaxis puede obte-
nerse en el manual guía de la sintaxis. En este apartado ofrecemos una muestra de la
misma.
SET
[BLANKS={SYSMIS**}]
{valor}
[COMPRESSION={ON**}]
{OFF }
[ERRORS={LISTING**}]
{NONE}
[FORMAT={F8.2**}]
{Fw.d }
[JOURNAL=[{ON**}] [{spss.jnl**}] ]
{OFF } {archivo}
[LENGTH={59**}]
{n }
[MITERATE={1000**}]
{n }
[MXWARNS={10**}]
{n }
[SEED={2000000**}]
{n }
[WIDTH={80**}]
{n }
ción deberá indicarse, después del signo de igualdad, OFF lo cual desactiva la compre-
sión de ficheros.
[ERRORS={LISTING**}] En general es interesante la descripción de la lista de erro-
res que el programa detecta al ejecutar una serie de instrucciones. No obstante, si se pre-
fiere no tener el listado de los que se puedan producir, puede efectuarse indicando NONE
después del signo de igualdad.
[FORMAT={F8.2**}] Por defecto, a las variables numéricas de nueva creación, a
lo largo del análisis se les asigna un formato de ocho caracteres con dos cifras decima-
les, F8.2. Si se desea, puede modificarse este formato indicando otro sustitutivo.
[JOURNAL=[{ON**}] El archivo en el que se recoge toda la información del pro-
ceso de análisis y los resultados obtenidos recibe el nombre de spss.jnl. Este archivo se
reinicia al empezar una nueva sesión de SPSS. Si se pretende guardar esa información,
debe indicarse un nombre de archivo. Existe la opción de no crear ningún archivo *.jnl
en la opción la palabra OFF.
[LENGTH={59**}] Esta opción hace referencia al número de líneas de cada página
del archivo de resultados, número que puede modificarse indicándolo de forma explí-
cita.
[MITERATE={1000**}] En gran número de análisis, la obtención de los resulta-
dos requiere la utilización de métodos iterativos. En este caso, el número máximo de
iteraciones está fijado por defecto en 1000, pudiéndose modificar indicando un valor
determinado.
[MXWARNS={10**}] Opción que permite fijar el número máximo de avisos indi-
cativos de problemas en la ejecución. Dichos problemas no son a veces errores fatales
sino que indican una indeterminación en las instrucciones o en los datos. Cuando se
alcanza el número máximo se detiene la ejecución del programa.
[SEED={2000000**}] Indicando un número diferente a 200000 se modifica la
semilla generadora de números aleatorios cuando así se precise en el análisis o en la
selección de submuestras.
[WIDTH={80**}] En esta opción puede definirse la anchura en caracteres de las
líneas del archivo de resultados o del Journal. El valor por defecto es de 80 caracteres.
Es decir, SET es una instrucción que permite modificar las opciones de funcionamiento
del programa, si bien la realidad es que en la mayoría de situaciones, las definidas en la
instalación, es decir, las opciones, por defecto acostumbran a ser las más utilizadas.
Para llevar a cabo una serie de modificaciones, deberá explicitar la instrucción Set
en la ventana del editor de sintaxis y ejecutarla, mediante la activación de la tecla
de la barra de herramientas una vez seleccionada con el cursor.
Por ejemplo, en la figura 2.3 se muestra un ejemplo en el que en la ventana Editor
de sintaxis SPSS se ha escrito una instrucción que modifica cuatro condiciones de tra-
bajo:
La primera hace referencia a cómo debe interpretar el compilador los espacios en
blanco en una variable numérica. Con la opción escogida se interpretaría como un valor
igual a cero.
En la segunda se le indica que en cada página de impresión se escriban sólo 40 líneas,
y tal como se indica en la tercera instrucción serán de 132 caracteres, siendo por defecto
el número de líneas 59 y los caracteres 80.
En la cuarta se le indica una semilla para iniciar una serie de números aleatorios y
poder generar muestras aleatorias de datos.
Una vez seleccionado con el cursor el bloque de instrucciones, incluyendo la sen-
tencia EXECUTE, al activar sobre la tecla!de la barra de herramientas, éstas se ejecutarán.
Uso profesional del SPSS Materials 25
Tal y como puede observarse en el índice de ayuda, la sintaxis del SET permite indicar
en una sola instrucción las cuatro opciones anteriormente citadas:
La matriz de datos
Matriz de datos Los elementos que componen una matriz de datos individualizados son los siguientes:
individualizados Caso: Es el elemento o unidad observacional, ya sea muestral o poblacional: persona,
vivienda, país, fábrica, unidad de producción, etc.
En el estudio que analizaremos en este libro, el caso es cada uno de los niños estu-
diados en Jaltenango y Villaflores.
Cada caso debe poseer un identificador o clave y unívoco que simbólicamente corres-
ponde a la fila de la matriz de datos, pudiendo ser una clave ya incorporada de inicio con
ese fin, o generada a partir de otros indicadores presentes.
En el estudio que usamos como ejemplo, el identificador se generará, más tarde, a
partir del número asignado a la casa, coincidente con el número del cuestionario, NCUEST,
y del número de orden del niño como persona habitante de esa casa, NOMPER.
Variables: Es el conjunto de informaciones recogidas para cada caso.
En el estudio de desnutrición infantil en la región de La Fraylesca, el número de
variables no es excesivamente elevado pero, sin embargo, existe un cierto grado de com-
plejidad debido a que las variables se encuentran en distintos archivos.
En casos como el que se describe, deberá existir un vínculo de unión entre todas las
variables, para poder asegurar que la información se refiere a un mismo niño. En prin-
cipio, a este vínculo le damos el nombre de número o identificador de caso.
Un requisito imprescindible es que, sea cual sea el archivo, las variables se encuen-
tren siempre en el mismo orden para todos los casos. Esta característica es la que le con-
fiere realmente el calificativo de matricial.
Así mismo, para todos los casos, la información de cada variable debe mantener cons-
tante el formato o naturaleza de la variable. Por ejemplo, debe decidirse previamente si
las categorías de la variable sexo se codificarán como mujer y hombre, como M y F, como
1 y 2, etc. Lo que debe quedar bien claro es el criterio único de codificación.
28 Materials Albert Navarro; Miguel Martín
Figura 3.1. Ejemplo de una misma matriz de datos expresada en formato fijo y libre.
Uso profesional del SPSS Materials 29
Matriz de datos La matriz de datos agrupados o agregados presenta la información de forma multidi-
agrupados o agregados mensional, agrupando los datos por índices.
En este caso el número de registros se corresponde con el número de combinacio-
nes entre las diversas opciones de las variables categóricas que definen la agrupación.
Imagine que, en nuestro caso, quisiésemos obtener un archivo de datos agrupado para
los niños del estudio por sexo (i = 1,2), la edad categorizada en cuatro grupos (j =
1,4), el tipo de vivienda en tres grandes grupos (k = 1,3), y la edad de la madre en
dos categorías (l = 1,2). Este archivo implicaría una matriz de datos en la que el
número de registros sería de 48, correspondiente a las 48 situaciones generadas.
En cada una de estas situaciones (i, j, k, l), las variables son resúmenes de propie-
dades existentes en un archivo de datos individualizado. Así, podría existir la infor-
mación del número de niños con las características generadas por los índices o fre-
cuencia de observación, f, i, j, k, l, los estadísticos muestrales de cualquier variable
cuantitativa, como la media de ingesta de proteínas, x, i, j, k, l, la proporción de
proteínas de origen vegetal, p, i, j, k, l, o cuántos niños están por debajo de un nivel
determinado, n, i, j, k, l, en una variable concreta.
También en la figura 3.2 se muestra un ejemplo de este tipo de matriz de datos. Esta
matriz corresponde a una agregación de la presentada en la figura 3.1. Observe cómo para
cada valor de la primera variable se detalla el número de casos con ese valor (columna
2 de la matriz de la figura 4) y el promedio de los valores en las variables 3 y 4.
Observe que dicha matriz se presenta en formato fijo, aunque también podría haberse
hecho en formato libre.
30 Materials Albert Navarro; Miguel Martín
Ficheros disponibles ! NIN_VILL.DAT: Fichero en formato ASCII. Contiene los datos de los niños esco-
para realizar el estudio gidos para el estudio residentes en el municipio de Villaflores con su información
demográfica y nutricional, así como la información referente a la madre. En la tabla
3.1 puede observar más detalladamente su estructura.
Inicialmente transportaremos los cinco ficheros de datos a una carpeta o archivo cre-
ado al efecto: C:\Spss\Chiapas. Una vez efectuada la copia, iniciaremos el proceso de trans-
formación de estos archivos a formato SPSS. De esta forma, en cualquier momento,
podremos acceder a ellos sin más problemas. Observe, sin embargo, que uno de los
ficheros originales está en formato ASCII, otros dos en versiones diferentes de Excel y
dos más en dBase IV.
Muy bien, ahora ya sé qué archivos tenemos y qué información contienen. Empecemos
a trabajar. Imagino que puedo ver estos datos... ¿Cómo lo hago?
Sintaxis La instrucción de sintaxis que permite la lectura y por lo tanto el transporte de la infor-
mación de un tipo de archivo ASCII a otro archivo en formato SPSS se conoce por el
nombre de DATA LIST.
34 Materials Albert Navarro; Miguel Martín
Como puede observarse, la instrucción completa posee una parte determinante, que
es el DATA LIST FILE = ‘fichero’ y otra opcional o dependiente de la estructura del
propio fichero de datos.
DATA LIST
Esta instrucción general, DATA LIST, significa que a continuación se dan las instruc-
ciones necesarias para localizar un nuevo archivo de datos, leerlo, traducirlo y crear por
lo tanto un nuevo fichero activo.
Es importante recalcar que SPSS no puede trabajar simultáneamente con varias matri-
ces de datos o ficheros activos, por lo que si ya tenía Ud. otro archivo de datos abierto,
deberá cerrarlo previamente.
El contenido del resto de la información que se suministra en la frase de sintaxis
anteriormente descrita es:
FILE=‘fichero’
La primera subinstrucción, FILE, es la indicación del nombre y ubicación del fichero de
datos. Como siempre ocurre en SPSS y en la mayoría de programas, la especificación
de un nombre de archivo que, en general, es en alfanumérico, se encierra entre comillas,
simples o dobles.
Hay que entender que por nombre del fichero se entiende el nombre, la extensión del
fichero, así como la especificación inequívoca de su localización en una unidad de memo-
ria determinada. En el ejemplo que vamos a desarrollar, uno de los ficheros de datos,
NIN_VILL.DAT, no está especificado totalmente si no se indica en qué directorio o
carpeta se encuentra ubicado.
Es decir, el archivo ‘C:\Spss\Chiapas\nin_vill.dat’ es, a efectos de análisis, diferente
del fichero ‘A:\nin_vill.dat’, independientemente de que en realidad fuese una copia
del anterior o por otras razones fuese un fichero con el mismo nombre y extensión, aun-
que con información diferente.
— Fixed **: Indica que en la matriz de datos que se ha indicado en FILE es un fichero
en el cual cada variable está en una determinada posición fija en todos los registros.
Es la forma matricial clásica que ya se ha indicado en el primer apartado de este
capítulo. Es la opción que el programa tiene por defecto y, por lo tanto, no es pre-
ciso especificar que es fijo cuando así lo es.
— Free: En este caso, la matriz se corresponde con un fichero en el cual cada variable
se separa de la siguiente a través de un separador, que puede ser cualquier signo
(comas, barras, dólares, etc.), aunque, eso sí, uniforme en todo el archivo. Esto
implica que los valores de una misma variable no tienen por qué estar en la misma
columna en todos los registros, si bien sí que han de mantener el mismo orden.
En este tipo de formato, los valores no existentes o desconocidos, missing, implican
la presencia en el registro de dos caracteres separadores seguidos.
Uso profesional del SPSS Materials 35
Observará que al ejecutar esta instrucción, se abre otra ventana, en la que se visua-
lizan los datos especificados, en una hoja con nombre Vista de datos. Tiene accesible tam-
bién otra hoja, Vista de variables, en la que consta la información de que, hasta el
momento, se dispone de cada variable.
En cualquier momento puede volver a la ventana del Editor de sintaxis, activando
Ventana del menú de herramientas, y observará que en ella se mantiene la instrucción
Data List que acaba de ejecutar. Esta instrucción puede almacenarla en un archivo per-
manente, indicando o activando la secuencia Archivo! ! Guardar como..., con lo que
en el futuro podría volver a ejecutarla o recordar la sintaxis que ejecutó y reproducir el
estudio.
La sintaxis alrededor del DATA LIST está desapareciendo en la actualidad. De hecho,
a partir ya de las últimas versiones de SPSS para Windows la tendencia es la de unifi-
car todas las instrucciones ligadas a la apertura y transporte de ficheros a través de una
única instrucción general que recibe el nombre de GET DATA. En la versión 10 del
SPSS ya es la que genera todos los tipos de lectura o apertura de ficheros, por lo que en
un futuro se prevé que la instrucción DATA LIST dejará de existir. Esta situación se
puede observar al abrir un archivo de datos ASCII, o texto, como se ha unificado en la
actualidad la nomenclatura, mediante la utilización de menús desplegables en las ven-
tanas disponibles en la barra de herramientas.
Ventanas
Realizar la apertura y lectura de un archivo ASCII por ventanas requiere activar mediante
el cursor la opción Archivo y, en el menú que se despliega, seleccionar Leer datos de
texto (figura 3.3).
A través de la ventana de Explorer que se activa, debe buscarse y abrir el fichero
NIN_VILL.DAT en la carpeta donde lo tenga copiado.
Con esta acción se abre una ventana con nombre Asistente para la importación de
texto en la que ya se visualiza una muestra del archivo indicado. Esta ventana, primera
de las seis que configuran el proceso, permite buscar un archivo en el que se encuentre
definido el formato de lectura.
Figura 3.4. Ventana de búsqueda y reemplazo de caracteres o textos, del procesador de textos
WordPad.
1.2. Cambiar el punto por la coma como símbolo del separador decimal en su sis-
tema:
Esto debe hacerlo fuera del programa SPSS, mediante el menú Inicio! ! Confi-
guración! ! Panel de control! ! Configuración regional, donde le aparecerá la
siguiente pantalla (figura 3.5):
Una vez importados los datos es necesario guardar el fichero activo en el disco ya
que en estos momentos el fichero es temporal. Es decir, si saliéramos del programa o se
produjera algún problema con el ordenador que provocara el apagón de éste, el fichero
que vemos activo se perdería y debería repetir la instrucción DATA LIST o la importa-
ción del archivo activando las ventanas de adquisición de datos.
A partir de ahora, cada vez que quiera trabajar con el archivo de datos de los niños
de Villaflores, ¿tendré que repetir el DATA LIST?
40 Materials Albert Navarro; Miguel Martín
Una vez realizadas las operaciones necesarias para la lectura del fichero de datos, es
recomendable guardar ya el fichero activo de forma permanente. De esta manera cual-
quier operación posterior con los datos, modificándolos mediante transformación o cre-
ación de variables, o bien efectuando diversos tipos de análisis, analizándolos en una o
varias sesiones, no requerirá definir cada vez la lectura de la matriz de datos original.
A riesgo de ser demasiado insistentes, volvemos a repetir la importancia que tiene
haber guardado la sintaxis de lectura, ya que a medida que transcurre el tiempo es más
difícil recordar el proceso por el cual se generó el fichero activo.
Sintaxis La sintaxis para generar un archivo permanente de datos en formato SPSS es la siguiente:
SAVE OUTFILE=’fichero’
[/UNSELECTED=[{mantener o no casos no seleccionados}]
[/KEEP={lista de variables}] [/DROP= lista de variables]
[/RENAME=(lista de variables antiguas= lista de variables nue-
vas)...]
[/MAP] [/{tipos de grabación}]
OUTFILE=’fichero’ Posee el mismo sentido que en el DATA LIST FILE. Es decir debe
indicarse la unidad y directorio en donde se piensa grabar el fichero, así como el nom-
bre y extensión del mismo. En general SPSS entiende por defecto que un fichero de
estas características, datos SPSS, debe llevar la extensión .sav.
Así, en el caso del fichero con el que estamos trabajando, podemos guardarlo en
disco mediante la instrucción:
Ventanas La acción de guardar el fichero, mediante la acción de menú por ventanas, se efectua-
ría activando Archivo!Guardar datos como..., tal y como se muestra en la figura 3.6.
Si en vez de pulsar la opción Guardar optase por la de Pegar, en la ventana Editor
de sintaxis SPSS se escribirían las órdenes de sintaxis, las cuales podría activar como en
casos anteriores. Es decir, seleccionando con el cursor la instrucción y pulsando la tecla
de la barra de herramientas.
42 Materials Albert Navarro; Miguel Martín
Figura 3.6. Acción de Guardar el archivo de datos en formato de datos SPSS, (*.sav).
Comentarios 1. En el momento de ejecutar esta instrucción, el fichero activo se guardará tal y como
está, conservando todas las modificaciones incorporadas desde la última vez que se
haya abierto. Si lo guarda con el mismo nombre, substituirá el fichero antiguo y éste
no será recuperable.
2. No olvide grabar el fichero de forma comprimida, sobre todo si se trata de un archivo
voluminoso.
Ya tenemos, ya sea por acción de sintaxis o por menú, el primer fichero en formato
de datos SPSS. Nos quedan cuatro ficheros más para pasar a este formato. Sin embargo,
éstos no son ficheros ASCII sino ficheros dBase IV y Excel (uno en versión 2.1 y el otro
versión 97).
Exacto. Si tengo archivos en formato ASCII ya sé que hacer. Pero si los tengo en
otros formatos, ¿puedo hacer lo mismo o debo utilizar otras instrucciones?
[/TYPE={formato fichero}] Entre las llaves debe indicarse en qué tipo de for-
mato está el archivo o fichero que se quiere leer. Deberá escoger entre la siguiente lista
de formatos:
Los archivos Excel en versiones superiores a la 4.0 deberán leerse mediante la ins-
trucción GET DATA.
En nuestro caso, hay que traducir dos archivos en dBase y crear los ficheros corres-
pondientes en estructura SPSS.
44 Materials Albert Navarro; Miguel Martín
Obviamente, una vez pasado el fichero a activo deberíamos grabarlo en disco tal y
como hicimos anteriormente. Para los otros dos archivos que pueden ser abiertos mediante
esta instrucción (CASA.DBF y ANTROP.XLS) deberemos repetir el mismo procedi-
miento que el empleado con NIN_JAL.DBF.
Comentarios 1. Observe que la importación de ficheros Excel sólo es posible si la versión es 4.0 o
inferior. En el caso de tener un fichero en una versión superior, utilice la instrucción
GET DATA o vaya al Excel y guarde el archivo específicamente en la versión 4.0.
2. El número de posibles variables que pueden importarse depende del tipo de pro-
grama original en el que se ha almacenado la información: en dBase II es posible un
máximo de 32, en dBase III 128, y en dBase IV, Multiplan 255 y resto de programas,
hasta 256.
Finalizado este proceso, en el área de trabajo que Ud. haya seleccionado, tendrá cua-
tro archivos con la extensión .sav correspondientes a cuatro ficheros traducidos en for-
mato SPSS. Observe que solamente faltará traducir uno (JEFE.XLS), el cual deberá ser
importado mediante la instrucción GET DATA explicada más adelante.
Uso profesional del SPSS Materials 45
A partir de este momento, pues, activar uno de los ficheros en formato de datos SPSS
puede efectuarse desde el Explorer de Windows. Dicha acción implicará que se ejecute el
programa SPSS y aparezca en la ventana del editor de datos el archivo correspondiente.
Para comprobarlo, salga del programa SPSS, mediante la opción Salir del menú
Archivo, respondiendo a las preguntas de archivar las ventanas de datos, de resultados
y de sintaxis, según su propio criterio.
Una vez cerrado el programa, busque con el Explorador de Windows la carpeta
donde se encuentran sus ficheros y observará que se describen cuatro archivos con la
indicación SPSS. Al activar con el cursor uno de ellos se activa el SPSS y en la ventana
le aparecerá la matriz de datos seleccionada.
Sintaxis La sintaxis que convierte un fichero de datos en formato SPSS (*.sav) en un fichero
activo es la siguiente:
GET FILE=’fichero’
[/KEEP={lista de variables}] [/DROP= lista de variables]
[/RENAME=(lista de variables con el nombre antiguo = lista de
variables con el nombre nuevo)...]
[/MAP]
En el caso en que esta instrucción se ejecutase con una ventana de datos ya abierta,
el programa le preguntaría si la que está activa en ese momento la quiere guardar o no.
Debe tener en cuenta que la respuesta afirmativa a esta pregunta superpone el fichero
activo actual al de origen desde donde se abrió, perdiéndose el original. Es pues acon-
46 Materials Albert Navarro; Miguel Martín
sejable, antes de abrir un archivo nuevo, guardarlo previamente, escogiendo entre las
opciones Guardar o Guardar como y no sólo respondiendo automáticamente a la pre-
gunta ¿Desea guardar el contenido del Editor de datos en FICHERO?
Ventanas El procedimiento es el habitual, Archivo ! Abrir ! Datos..., acción que abre la ven-
tana que se muestra en la figura 3.8.
Aún me queda un archivo para pasar a formato de datos SPSS. ¿Es que no hay nin-
guna instrucción para traducirlo?
Sintaxis La sintaxis general del GET DATA es compleja, por lo que sólo se muestra a continua-
ción cuál es el esquema general de la misma, remitiendo al lector al manual de instruc-
ciones de SPSS.
En principio la estructura general es:
Esta forma general resume desde el DATA LIST y el GET TRANSLATE, en fun-
ción del formato que ese indique. Así mismo, en función de ese mismo formato, las
subinstrucciones y opciones varían.
/TYPE = {Formato}
/CONNECT=’carácter de conexión’
/SQL ‘órdenes de selección’
XLS: En los formatos Excel 5.0 y superiores, deberá indicarse información acerca de
las hojas que constituyen el libro a utilizar:
[/ARRANGEMENT = {Tipo}]
El cual puede ser DELIMITED por algún carácter como la coma, espacio en blanco,
punto y coma etc., o FIXED. Es decir indica si el archivo es de formato variable o fijo.
En el primer caso deben indicarse los nombres de las variables y su formato:
y en el segundo supuesto de tipo fichero con formato fijo deberá indicarse para cada
variable las columnas de inicio y final de la misma, así como su formato:
SPSS: En este caso, no existe coherencia entre el texto del manual de ayuda y la
expresión de la sintaxis que describe el mismo, por lo que aparentemente aún no se puede
suplir el GET FILE por un GET DATA / TYPE = SPSS, si bien todo parece indicar que
en un futuro próximo también estará incluido este tipo de archivo.
Una expresión tan general y polivalente posee, como es lógico, una sintaxis detallada
muy compleja, y que requiere conocimientos que superan los objetivos de este libro.
Ventanas En este caso, la utilización de ventanas para la lectura e importación de los archivos per-
mite, mediante la opción de guardar o «pegar» la sintaxis, adentrarse en esta instrucción
tan general y por lo tanto tan compleja.
Así, volviendo al caso de la apertura de un fichero ASCII o de formato TXT por
ventana, Archivo ! Leer datos de texto... genera, como ya se ha indicado (figura 3.3),
un proceso de seis ventanas encadenadas, el resultado del cual es la siguiente sintaxis:
3. Paso 5 de las 6 pantallas: Nombre y tipo de variable. Por defecto, el nombre que
otorga SPSS a cada una de la variables es V1, V2, etc. Observará que, al delimitar
los anchos de las variables fecha, se generan automáticamente variables inexisten-
tes y que corresponden únicamente a las columnas en blanco que separan las fechas.
4. Los formatos se atribuyen por valores estándar en función de la longitud de la varia-
ble, lo cual no siempre se corresponde con la realidad. Así, los formatos que asigna
a ncuest y, inicialmente, como variables alfanuméricas o cadenas. Sólo puede asig-
narse el formato correcto si se define un formato previo en un archivo aparte.
Comentarios 1. Es muy importante conocer la estructura del archivo de datos para poder determinar
dónde finaliza cada variable. Especialmente si las variables son fechas, ya que en ese
caso debe fijarse también el inicio del campo de la variable. Si no se efectúa de esta
forma, el ancho de columna no será reconocido como un formato de lectura de fechas
y le atribuirá un formato numérico, produciendo una lectura errónea, o missing de
sistema, debido a la presencia de caracteres no numéricos en las variables de este tipo.
2. Al delimitar con el cursor la anchura de las variables, si ha fijado tanto el inicio como
el final de las mismas, obligatorio en el caso de fechas, el proceso le genera varia-
bles inexistentes, considerando las columnas en blanco entre las variables reales
como otras variables. Puede eliminarlas una vez editada la sintaxis antes de la eje-
cución o una vez generada la ventana de datos marcándolas con el cursor y poste-
riormente apretando la tecla Supr.
Igualmente, en el caso en que el archivo sea de formato Excel, se pueden obtener sin-
taxis diferentes en función de que se utilice una u otra ventana.
En la figura 3.9 se muestra cómo en el caso del archivo JEFE.XLS (en formato de
libro de hojas de cálculo de Microsoft Excel) podemos utilizar la acción general mediante
la ventana Archivo ! Abrir ! Datos... (*.xls), siendo la sintaxis obtenida al Pegar
las instrucciones:
Ventana general La utilización de la ventana que se activa tras Archivo ! Abrir base de datos !
Nueva consulta... abre la ventana general, que corresponde al GET DATA, tal y como
se muestra en la figura 3.10.
A partir de este instante, el número de pantallas que pueden llegar a producirse, dada
la gran variedad de opciones de fuentes de datos, es muy elevado. En otras palabras, la
gran diversidad de secuencias de sintaxis que pueden considerarse supera los objetivos
de este libro, ya que entre otras situaciones debería definirse un proceso diferenciado en
función de si el programa está ejecutándose desde una instalación en el disco duro del
ordenador o bien se está ejecutando el programa en red local.
Únicamente, a modo introductorio, se muestra un proceso imprescindible, como es
la definición de una nueva fuente de datos, para el caso de dBase y Excel.
La primera pantalla que se ha obtenido es la del Asistente para base de datos:
En este asistente de gestión de base de datos deben tenerse definidos las fuentes de
datos o directorios donde se encuentran las bases que se quieren analizar, y a esa defi-
nición se le da el nombre de fuente de datos.
Estas fuentes de datos se definen para cada tipo de formato.
Así, si al marcar dBase Files, se activa la tecla de Añadir fuentes de datos, la pan-
talla que aparece al escoger la opción Configurar permite definir el directorio donde se
encuentran los ficheros de Dbase así como su versión. En nuestro ejemplo, se indicaría
el directorio C:\Spss\Chiapas o aquel que el lector haya asignado. De la misma manera
se efectuaría si el archivo que se pretende leer es Excel. Una vez se ha definido la fuente
de datos, esta información permanece permanente en las próximas sesiones, a no ser que
se desactiven, y aparecen siempre que se indique ese tipo de fuente de datos.
Así mismo, el lector interesado llegará sin dificultad a la creación de perfiles de
fuentes de datos personalizadas.
*****************************************************************.
* Importamos el fichero Nin_vill.dat y lo almacenamos como *.
* fichero de datos SPSS *.
*****************************************************************.
*********************************************.
* Importamos el fichero Nin_jal.dbf y lo *.
* almacenamos como fichero de datos SPSS *.
********************************************.
*********************************************.
* Importemos el fichero Antrop.xls *.
********************************************.
***************************************.
* Importemos el fichero Casa.dbf *.
***************************************.
Uso profesional del SPSS Materials 53
***************************************.
* Importemos el fichero Jefe.xls *.
***************************************.
Introducción
Antes de iniciar cualquier análisis es preciso definir con claridad cada una de las varia-
bles que conforman la base de datos o el archivo original. La razón de esta necesidad se
debe a que, a lo largo del proceso de análisis, las variables existentes se pueden modi-
ficar e incluso crear otras variables nuevas a partir de ellas, con el problema de que, a
menudo, se mantiene el nombre de la variable de origen. Por si esto no fuese suficiente
para justificar la definición clara y la documentación de la generación de las variables,
hay que tener en cuenta que un mismo fichero puede ser compartido y manipulado por
diversas personas. Si no queda bien explícita cada variable, y qué significa exactamente
su contenido, se corre el riesgo de que el analista acabe absolutamente desorientado sin
poder interpretar la información disponible y, en consecuencia, se vea obligado a reha-
cer tareas anteriormente realizadas. En el peor de los casos, incluso puede llegar a rea-
lizar interpretaciones erróneas derivadas de una caracterización incompleta o incorrecta
de alguna de las variables.
Básicamente, las características que hay que definir de una variable se resumen en
los siguientes aspectos: formato, medida o naturaleza, definición de la información que
registra, definición de los posibles subgrupos o valores especiales y, por fin, qué valo-
res se consideran perdidos o desconocidos.
Formato El formato hace referencia a cómo está expresada o registrada una variable en la matriz
de datos. En definitiva se expresa, mediante el formato, en qué tipo de caracteres debe
leerse la variable.
Inicialmente deben considerarse dos grandes tipos de formatos. En primer lugar los
formatos numéricos, los cuales se reconocen porque los valores u opciones de la varia-
ble se expresan con números, aunque la variable sea de naturaleza categórica. En segundo
lugar los formato string o cadena, los cuales se expresan con caracteres alfanuméricos,
es decir, con cualquier carácter ASCII, aunque éstos incluyan números. Si bien existen
varias posibilidades, la inmensa mayoría de veces el formato utilizado es uno de los que
se presentan en la figura 4.1.
Así, una variable como sexo puede registrarse como alfanumérica (tal y como está
en las bases de datos de los ejemplos que vamos a desarrollar, «Masculino» y «Feme-
nino») o como numérica (asignando, por ejemplo, los valores arbitrarios 1 y 2, ó 0 y 1,
o cualquier otro par). Esta elección no es intrascendente y tiene consecuencias impor-
tantes tal y como veremos posteriormente.
Por último, como se observa en la figura, las variables en cualquier formato de tipo
fecha incluyen separadores de tipo guiones, comas o separadores de raya de quebrado
56 Materials Albert Navarro; Miguel Martín
Medida o naturaleza Además de especificar correctamente el formato de una variable, la información de cada
una de ellas debe incluir la naturaleza de la misma. De ella depende el tipo de análisis
que puede realizarse con dicha variable o en el que puede participar. Por lo tanto, dejar
reflejada esta naturaleza también es importante, a pesar de que como veremos poste-
riormente, el programa SPSS, en la mayoría de ocasiones, no utiliza esta información.
En la siguiente figura podrá observar cómo se clasifican las variables según su natura-
leza.
Uso profesional del SPSS Materials 57
⎪ Continuas
se manejan con un cierto grado de discretización, defi-
nido por la precisión con que se han determinado. En
⎩ general, dicha precisión es la que configura el formato
Fw.d en que está expresada la variable.
Ejemplos: Proteínas animales o proteínas vegetales, las
cuales expresan en gramos la cantidad de proteínas inge-
ridas por un niño al día.
Comentarios 1. El lector debería reflexionar en este momento acerca de las diferencias entre for-
mato y naturaleza de las variables.
2. El formato no es más que la forma de expresión de los valores de la variable, no
existiendo siempre una correspondencia unívoca entre ese formato y la naturaleza.
Así, una variable, aunque sea de naturaleza categórica cualitativa, o nominal, puede
expresarse en un formato numérico, lo cual debe tenerse presente a la hora del aná-
lisis y no describirla como cuantitativa. ¿Qué sentido tendría el cálculo de la media
de la variable sexo, en este o cualquier caso de estudio, aunque se exprese como se
indicaba anteriormente como Masculino = 1 y Femenino = 2?
3. De manera simétrica, una variable cuantitativa podría, como es por desgracia bas-
tante frecuente, encontrarse expresada en un formato alfanumérico o cadena, lo cual,
si bien no es impedimento para su lectura o ciertos tipos restringidos de análisis,
incapacitaría la determinación de sus estadísticos naturales como media, varianza o
su coeficiente de correlación con otra variable cuantitativa.
Definición Otro aspecto a considerar es que, de forma ideal, el nombre de una variable debería ser
de la información suficiente para identificar claramente su contenido. En ciertos casos dicho nombre no
que registra la variable admite confusión, por ejemplo sexo, pero a menudo sólo con el nombre no es posible la
identificación completa de la información que contiene. En nuestros ficheros encontra-
mos variables como nomper o mescola en las cuales, solamente con su nombre, es difí-
cil conocer exactamente qué registran. En situaciones como ésta es de gran utilidad poder
definir una etiqueta de variable, es decir, un pequeño texto que se asocia a la variable para
solventar este problema. Este texto aparecerá en el fichero de resultados y las ventanas
del programa, siempre que lo creamos necesario, llegando incluso, aparentemente, a
substituir el nombre de la variable. De ahora en adelante nos referiremos a esta información
como etiqueta o variable label, según estemos trabajando por ventana o por ejecución
de sintaxis.
Definición A todo lo anteriormente dicho, cabe añadir que si la variable de la que tenemos que rea-
de las posibles lizar una descripción o un análisis es de naturaleza categórica (figura 4.2), también es
categorías o valores importante indicar la definición de cada una de las categorías. Por ejemplo, si la varia-
especiales ble sexo estuviera expresada en formato numérico con dos posibles valores como 1 y 2,
tendríamos que definir en algún momento si el 1 representa «Masculino» y 2 «Femenino»
o viceversa. Para ello existe la posibilidad de definir etiquetas de valores con el fin de
eliminar la confusión. En este caso el nombre con que aparece esta información en la ven-
tana de Vista de variables del Editor de datos del SPSS, aplicación del SPSS, es el de
Valores, mientras que en términos de sintaxis se conoce como Value labels.
También es interesante aplicar etiquetas a valores especiales de variables de natura-
leza no categórica. Por ejemplo, para la variable que registra los cursos escolares supe-
rados por el cabeza de familia, de naturaleza cuantitativa discreta, es importante espe-
cificar que los valores 77 y 88 no representan 77 y 88 cursos superados, si no que
identifican las respuestas «No sabe» y «No contesta».
Uso profesional del SPSS Materials 59
Valores perdidos Un aspecto más a tener en cuenta son los valores que, por razones varias, no formarán
o desconocidos parte del análisis. Así, existen valores que representan la falta o pérdida de información.
Es decir, responden al desconocimiento del valor real de la variable en un caso o indi-
viduo concreto de la base de datos. Estos valores, que pueden representarse de diversas
formas, reciben el calificativo de missing. Cuando el analista recibe desde el principio
un dato con estas características, es decir sin información, el dato recibe el nombre de
system missing o valor perdido de sistema.
A veces, sin embargo, se observan determinados valores que, a pesar de venir codi-
ficados o expresados en la base original, corresponden a opciones del tipo NS «No sabe»
o NR «No responde». Habitualmente se presentan como opciones válidas de respuesta
a una pregunta formulada en una encuesta, por lo que no son valores que representen falta
de información, simplemente son opciones que el individuo entrevistado escoge como
respuesta y que posiblemente no interese analizar o considerar en muchos casos. Estos
valores también se llaman missing o valores perdidos pero reciben el calificativo de
missing de usuario o valores perdidos por el usuario. La diferencia con los primeros o
missing de sistema, es que no se desconoce el valor que toma la variable, y además que
no interesa incluirlos en un análisis general aunque posiblemente consideremos necesario
su análisis por separado. Por ejemplo, si bien las respuestas NS o NR, es decir, «No
sabe» o «No responde», pensásemos que no deben analizarse conjuntamente con el resto
de valores, quizás deberíamos estudiarlas a parte para conocer las características de los
individuos que se inclinan por estas preferencias. Por tanto, hay que destacar que los
missing de usuario, en cualquier momento, pueden ser recuperados por el analista e
incluidos en análisis posteriores si así se cree conveniente.
Por último, existen los valores claramente equivocados, correspondientes a errores
en la entrada de datos, en la medida o en la clasificación. En el caso en que no pueda sub-
sanarse el error cometido, existen mecanismos para definir estos valores como missing
o perdidos.
Empezaremos a aplicar estos conceptos con el primero de los archivos de datos que
tenemos ya en formato SPSS: NIN_VILL.SAV. El lector deberá efectuar el mismo pro-
ceso para el resto de archivos, encontrándose la sintaxis necesaria al final del capítulo.
Es recomendable, no obstante, efectuar las operaciones necesarias sin acudir a ese apar-
tado, recurriendo al mismo sólo para comprobar el trabajo desarrollado así como para
solventar problemas de sintaxis que se le presenten y no pueda resolver con el módulo
de ayuda del propio SPSS.
Formato
Sintaxis La sintaxis de definición de los formatos, como en cualquier caso de acción por sinta-
xis, deberá escribirse en la ventana Editor de sintaxis de SPSS, (Archivo ! Nuevo !
Sintaxis), y tiene la siguiente expresión:
Así, para cada variable o lista de variables deberá indicarse el formato, el cual, en
términos SPSS, puede tener alguna de las siguientes características:
{formato}:
En el caso que nos ocupa, la definición de formatos para las variables del archivo
NIN_VILL.SAV, haríamos:
Observe cómo las variables de tipo fecha y cadena no están especificadas en la ins-
trucción FORMATS. Esto se debe a que su formato no puede presuponerse o darlo por
defecto y, por lo tanto, se tuvieron que definir en la instrucción DATA LIST.
Ventanas Podemos modificar los formatos escribiendo directamente sobre las casillas correspon-
dientes a Tipo, Anchura y Decimales en la ventana del Editor de datos, en la hoja Vista
de variables (figura 4.3).
Los formatos que se visualizan la primera vez son los que se han generado mediante
la instrucción DATA LIST por defecto, a excepción de las variables alfanuméricas, las
cuales, al expresar las columnas entre las que se encuentra la variable e indicar que es
alfanumérica, ajusta un formato de este tipo, cadena, con la longitud máxima que le dan
estas dos columnas. En caso de utilizar otras instrucciones para importar el archivo de
datos de otro programa (GET TRANSLATE o GET DATA), los formatos que se visua-
lizarán inicialmente serán los que estaban definidos por los programas externos.
Así pues, en principio, el propio acto de apertura de un fichero y su lectura o impor-
tación por cualquiera de los mecanismos explicados, asigna automáticamente el formato
a las variables. Con esta instrucción podemos, sin embargo, adecuarlo a nuestros pro-
pósitos si fuese necesario.
El momento en el que la definición del formato de las variables es más relevante es
en el supuesto en que generemos nuevas variables, como se verá en el capítulo siguiente.
En este caso es muy frecuente que el formato que por defecto atribuye el programa,
mediante las Opciones o Settings, no sea el más adecuado a nuestros intereses, o bien
no esté definido tal y como se verá en las variables de naturaleza alfanumérica de nueva
creación.
62 Materials Albert Navarro; Miguel Martín
Comentarios 1. Cualquier variable que no sea numérica, como es el caso de SEXO, F_ENTR y
F_NACIM, siempre que se haya ejecutado la instrucción DATA LIST anteriormente
al FORMATS, ya tiene definido el formato.
2. Fíjese que en los formatos numéricos (Fw.d) la w es el número total de caracteres
incluido el separador decimal. Es decir, es la anchura total que tendrá la variable,
no el número total de valores enteros. Por ejemplo, la ingesta de proteínas tanto de
origen animal como vegetal, poseen un formato F6.2, lo cual indica que la medición
tendrá como máximo tres enteros y dos decimales. Estos cinco caracteres más el
separador decimal son los que se indican con el número 6 en el formato.
3. En el caso de las variables tipo fecha, cabe destacar que, internamente, la mayoría
de ellas se almacenan mediante una correspondencia numérica. Ésta es el número de
segundos transcurridos desde el 14 de octubre de 1582 hasta la fecha especificada
en la variable. Este valor podrá observarlo si transforma la variable en formato fecha
a formato numérico.
Medida
{naturaleza}:
scale **: Variable cuantitativa.
nominal: Variable categórica nominal.
ordinal: Variable categórica ordinal.
Ventanas Como en el caso anterior, podemos definir la naturaleza de las variables a partir de la ven-
tana del Editor de datos con el tipo de visualización Vista de variables (figura 4.3). En
este caso, las modificaciones se efectuarán en las casillas correspondientes a la columna
Medida indicando si es una variable de escala, ordinal o nominal.
Comentarios 1. Realmente sólo es necesario que esté indicada la naturaleza de la variable en los
siguientes casos: gráficos creados mediante la instrucción IGRAPH (en las ventanas,
Gráficos4Interactivos) y en ficheros de datos en formato SPSS usados en el módulo
AnswerTree (árboles de decisión). En el resto, el programa actuará automáticamente
sin distinguir entre naturalezas distintas, quedando en manos del analista realizar un
uso correcto de las variables seleccionadas. Sin embargo, reflejar la verdadera natu-
raleza de la variable no supone un gran esfuerzo y sólo puede ser positivo, con lo cual
recomendamos que dedique unos instantes en definirla.
2. Note cómo no siempre existe una relación directa entre el formato de una variable
y su naturaleza o medida. Así, es posible que dos variables de idéntica naturaleza se
expresen con formatos distintos (por ejemplo sexo y mocupa) y de la misma forma,
dos variables de distinta naturaleza podrían tener el mismo formato.
Ya tengo los datos delante de mis ojos. ¿Qué será nomper? ¿Qué información debe
contener? E imagino que mescola será la escolaridad de la madre... ¿Expresada en
qué unidades? ¿En años estudiados, cursos superados?
Etiquetas de variables
Cada etiqueta, enmarcada siempre entre apóstrofes, puede llegar a tener una longi-
tud de hasta 255 caracteres, si bien en los análisis y descriptivas sólo se muestran los 60
primeros como máximo.
Si la etiqueta requiere emplear más de una línea de texto, antes de partir el texto se
cerrará con el apóstrofe y en la línea siguiente, antes de abrirlo de nuevo para continuar,
se incluirá el símbolo +.
En nuestro caso podríamos poner las siguientes etiquetas para identificar claramente
el contenido de la variable:
Ventanas Se pueden introducir en la columna Etiqueta en Vista de variables en la ventana del Edi-
tor de datos (figura 4.3).
Ahora ya conocemos con exactitud qué información contiene cada variable. Pero,
¿qué significará que la ocupación de la madre es 1 ó 2 ó 7 u 8? ¿Será el número de
ocupaciones?
Sintaxis La expresión que asigna ese texto a cada valor de cada variable es:
Ventanas Podemos introducir las etiquetas pulsando la columna Valores en Vista de variables en
la ventana del Editor de datos (figura 4.3). Entonces aparecerá el siguiente recuadro:
Figura 4.4. Ventana de Vista de variables para asignar etiquetas a los valores.
Comentarios 1. No es obligatorio poner etiquetas a los valores o categorías, e incluso podemos eti-
quetar algunos valores y no etiquetar otros de la misma variable. Aún así aconseja-
mos que se haga. El analista debe impedir que llegue un momento en el cual no
pueda reconocer perfectamente todos los datos que maneja y etiquetar los valores es
una buena ayuda.
2. Tenga en cuenta que la etiqueta de valor o categoría sustituye el valor de forma
visual, es decir, realmente el programa lo que utiliza al realizar cualquier operación
son los valores y no las etiquetas. Por lo tanto, cuando el analista esté programando
mediante la sintaxis y deba referirse a determinada categoría de la variable deberá
hacerlo por su valor.
3. Los valores de una variable alfanumérica se expresan entre comillas simples o dobles.
Esta notación no sólo existe para el caso de estas instrucciones, Variable y Value
labels, sino que siempre que se exprese un valor determinado alfanumérico deberá
acotarse entre comillas. Así, por ejemplo, cuando debamos indicar el valor feme-
nino en alguna instrucción escribiremos: «FEMENINO» o ‘FEMENINO’. Observe
que, debido al formato de esta variable, ‘FEMENINO’, ‘ FEMENINO’ o ‘FEME-
NINO ’ no es lo mismo, ya que los caracteres en blanco tienen una representación
propia en alfanumérico. Tampoco es lo mismo ‘FEMENINO’ que ‘Femenino’, puesto
que una misma letra en mayúscula o minúscula representa un carácter distinto.
4. En esta ocasión el máximo número de caracteres es de 60, aunque se visualicen sólo
los 20 primeros.
5. Cuando un conjunto de variables posee las mismas etiquetas para sus categorías, por
sintaxis puede enunciarse la lista de variables y a continuación indicar las etiquetas
de valores comunes. Por ejemplo, podrían existir diversas variables en las que las cate-
gorías posibles fuesen 0 y 1 y que en todos los casos 1 significase ‘SÍ’ y 0 ‘NO’. En
este caso por sintaxis se podría indicar :
Conozco perfectamente qué es cada variable y qué significan sus valores. Pero tengo
un problema. En el momento de estudiar la ocupación de la madre no quiero describir
los valores «NS» y «NR» conjuntamente con los demás. Aunque tampoco quiero
perder la información de cuáles son «NS» y «NR» ya que creo que después sería
interesante estudiar específicamente esos casos. ¿Qué debo hacer?
Tal y como se indicó en los capítulos de introducción, existen dos tipos de indicadores
para señalar aquellos casos en los que se desconoce el valor concreto de una variable.
Los missing de sistema se identifican desde el principio y normalmente se expresan
dejando en blanco las variables numéricas. Generalmente se visualizan en la ventana de
editor de datos como un punto. Evidentemente, si la variable es alfanumérica o cadena,
el blanco tiene representación de valor como otro carácter cualquiera y no lo reconoce-
ría como tal.
Diferente cuestión son los missing definidos por el propio usuario. Éste puede deci-
dir la exclusión de estos valores, o no, en los posteriores análisis.
Pues bien, en este segundo caso es necesaria la ejecución de la siguiente instrucción
para convertir los valores a valores missing de usuario:
Uso profesional del SPSS Materials 67
Sintaxis Entre los paréntesis se indica la lista de caracteres o valores que se consideran valo-
res missing por el usuario.
Lista de valores:
• THRU: Situado entre dos números discretos indica que los valores missing de
usuario son todos aquellos situados entre el primer número y el segundo, ambos
incluídos.
Ejemplo: MIS VAL ed_madre (77 thru 88) .
Aunque también sería válido de la siguiente forma:
MIS VAL ed_madre (77-88) .
Declararía missing de usuario los valores 77, 78, 79, ..., 87 y 88.
En la base de datos que estamos trabajando en este momento, sólo se deben definir
missings de usuario en tres variables. Debido a que en los tres casos los missings de
usuario son valores discretos y no un rango de valores, lo hacemos de la siguiente forma:
Sólo hace falta anotar los valores en función de si la variable es discreta o continua.
En el primer caso escogeríamos «Valores perdidos discretos», y en el segundo marcarí-
amos «Rango más un valor perdido discreto opcional».
Sin embargo la información está repartida en varias bases de datos. ¿Será real-
mente necesario llevar a cabo este proceso de definición en todas ellas? ¿Hasta qué
punto vale la pena «perder el tiempo» con estas acciones?
Llegados a este punto debemos caracterizar plenamente las variables de las otras
bases de datos del estudio. No obvie hacerlo, puede parecer intrascendente, pero en la
realidad el analista de datos se enfrenta diariamente con más de un fichero a la vez, con
ficheros previamente manipulados por otro analista, con ficheros con los que estuvo tra-
bajando tiempo atrás. Una buena caracterización de las variables es imprescindible para
poder controlar el trabajo, ganar tiempo y asegurar la calidad de los resultados obteni-
dos.
En el caso del estudio que estamos analizando, una forma de ahorrar tiempo se logra-
ría si se guarda la sintaxis, escribiéndola o mediante la opción Pegar de las ventanas.
Fíjese que para caracterizar las variables del fichero NIN_JAL.SAV, sólo debe aña-
dir la instrucción FORMATS para la variable SEXO y cambiar el nombre del fichero de
datos en las instrucciones GET FILE y SAVE OUTFILE del fichero de sintaxis utili-
Uso profesional del SPSS Materials 69
zado para NIN_VILL.SAV. Esto es así puesto que las demás instrucciones son las mis-
mas al tener ambos ficheros idéntica estructura.
Una ventaja adicional es además de la ganancia de tiempo el tener la seguridad de
que la definición de las variables seguirá el mismo criterio en estos dos archivos, los
cuales contienen la misma información, a diferencia exclusivamente de la ciudad en
donde residen los niños.
70 Materials Albert Navarro; Miguel Martín
*****************************************************************.
* Definamos las variables del fichero NIN_VILL.SAV *.
*****************************************************************.
*****************************************************************.
* Definamos las variables del fichero NIN_JAL.SAV *.
*****************************************************************.
*****************************************************************.
* Definamos las variables del fichero ANTROP.SAV *.
*****************************************************************.
*****************************************************************.
* Definamos las variables del fichero CASA.SAV *.
*****************************************************************.
GET FILE=’C:\Spss\Chiapas\casa.sav’.
*****************************************************************.
* Definamos las variables del fichero JEFE.SAV *.
*****************************************************************.
GET FILE=’C:\Spss\Chiapas\jefe.sav’.
Introducción
Tal y como se ha visto hasta este punto, la información generada en un estudio puede encon-
trarse recogida de forma fragmentada en diversos archivos. La información definitiva que
se requiere para el análisis final, en este supuesto, se encontrará repartida en diversos fiche-
ros que, a su vez, pueden poseer estructuras distintas y estar generados en soportes de
también diversa naturaleza. Veamos pues, cómo abordar una situación de este estilo, tan
frecuente por otra parte en la vida real.
En el estudio que estamos desarrollando, la información necesaria para analizar el
estado nutricional mediante la ingesta proteica de los niños se encuentra dividida en
cinco ficheros.
Dos de ellos poseen la misma estructura de variables, con los mismos campos y for-
matos, con las mismas definiciones de valores perdidos y de categorías. Son, por lo tanto,
ficheros en los que hay datos de dos grupos de niños diferentes, pero la naturaleza de la
información es la misma. El primero, NIN_VILL.SAV se refiere a los niños residentes
en la población de Villaflores y el segundo, NIN_JAL.SAV, a los de Jaltenango.
Cada registro, es decir, cada niño, está representado por dos claves identificadoras.
La primera, NCUEST, es el número que identifica la casa donde vive el niño. Ello es así
debido a que a cada casa u hogar se le atribuyó un número de cuestionario para dife-
renciarlo de las demás casas encuestadas, y la segunda, NOMPER, identifica al niño
dentro de la casa, es decir, lo personaliza respecto a las demás personas que viven en el
mismo hogar.
En el archivo que contiene los datos antropométricos de cada niño, éste está identi-
ficado exclusivamente con el número de casa (NCUEST) y no con NOMPER. Esto es
debido a que sólo se selecciona a un niño por familia y en el caso de tener hermanos
siempre se ha seleccionado al más pequeño, por lo que la identificación es inequívoca.
Por otro lado, tenemos información en otro archivo acerca del jefe de familia. Observe
cómo también en este fichero consta la variable NCUEST, con lo cual la forma de rela-
cionar la información de cada jefe de familia con la del niño del mismo hogar puede
realizarse a través de la clave o identificador de la casa.
De igual forma sucede con el fichero que contiene las características del hogar en lo
referente al tipo y calidad de la construcción y servicios de que disfruta la vivienda y a
los aspectos socioeconómicos de la familia.
En todos los casos el único vínculo de identificación es el número identificativo de
la casa a través del número del cuestionario.
Así, aprovechando este estudio vamos a explicar cuáles son los mecanismos de mani-
pulación de ficheros de forma que al final tengamos la información necesaria en uno
solo y pueda realizarse el análisis de la información contenida en el mismo.
76 Materials Albert Navarro; Miguel Martín
Ordenación de casos
— A**: Ascendente. Ordena los casos situando al inicio los que tienen el menor valor
en la variable especificada y en los últimos registros aquellos que presentan el mayor.
— D: Descendente. Ordena los casos de mayor a menor.
En esta ventana debe escoger qué variables utiliza como clave de ordenación así
como para cada una de ellas, si considera más de una, qué criterio de ordenación requiere,
ascendente o descendente.
Como ejercicio abra uno a uno los ficheros *.sav que ha creado hasta el momento y
ordene cada uno de ellos según la variable NCUEST de forma ascendente. Observe
cómo se han reordenado los casos en la ventana Vista de datos del Editor de datos
SPSS.
Una vez ordenado cada fichero, guarde el resultado con el mismo nombre. En caso
de no efectuar la acción de Guardar como... o Guardar el archivo seguiría desordenado.
Una de las acciones de manipulación de ficheros que se presentan con mayor frecuen-
cia es la de añadir casos a un fichero ya existente.
El motivo generalmente se debe a que la información se ha generado en lugares o
tiempos diferentes y se desea analizarla en su globalidad. En nuestro ejemplo tenemos
un caso muy evidente. En un archivo se encuentra la información recogida en Villaflo-
res y en el otro la correspondiente a Jaltenango. No obstante, el objetivo del estudio no
persigue la descripción de los niños seleccionados en función del municipio, sino en su
conjunto.
Es pues el caso típico de añadir la información de un fichero a otro.
78 Materials Albert Navarro; Miguel Martín
Sintaxis La sintaxis requiere que exista ya un fichero activo o ya abierto en la ventana de Edi-
tor de datos SPSS. La instrucción añade a los casos del fichero activo uno o varios
ficheros externos, forzosamente de naturaleza *.sav . La estructura de estos últimos, en
principio, debe ser idéntica a la del fichero activo que tenemos abierto.
Esta instrucción puede encadenar más de dos ficheros, por lo que para cada uno de
ellos deberá indicarse la siguiente información:
FILE={fichero} Especifica, cada vez que aparece, a qué fichero de los que vamos a
encadenar o añadir nos referimos. Debe indicarse el path o nombre completo de la car-
peta o archivo donde se almacena el fichero, y sólo pueden ser ficheros de naturaleza *.sav.
La especificación, al igual que en otras ocasiones en que se referencia un archivo o
fichero externo, debe escribirse entre comillas.
En el primero que se indica en la instrucción no se inicia la sentencia con el signo /,
siendo obligatorio en todos los demás archivos que se indiquen.
En el fichero resultante se mostrarán al inicio los casos del primer fichero especifi-
cado en la instrucción (es decir, el nombrado en el primer FILE) seguidos de los casos
del siguiente fichero (identificado en el segundo FILE) y así sucesivamente. Si alguno
de los ficheros involucrados en la instrucción es el activo, éste puede especificarse
mediante un *.
El resto de opciones, MAP, KEEP y DROP, se interpretan igual que en todas las ins-
trucciones descritas hasta el momento.
Vamos a generar un fichero que contenga la información de todos los niños estu-
diados, es decir, un archivo en el que estén registrados conjuntamente los niños de Villa-
flores y Jaltenango. Pero, ¡atención!, fíjese que en los ficheros originales no existe una
variable que identifique el municipio de residencia, si no que nosotros conocemos esa
información al saber en cual de los ficheros está registrado el niño.
Este aspecto es importante ya que, al juntar los dos ficheros en uno, esa informa-
ción desaparecerá y seremos incapaces de distinguir cuál es el municipio de residencia
de cada niño. Es lógico pensar, entonces, que es más cómodo juntar la información pero
de manera tal que se pueda conocer de qué población es cada niño, o de qué fichero pro-
viene cada caso.
Uso profesional del SPSS Materials 79
1. Abrir uno de los ficheros (por ejemplo NIN_VILL.SAV), con lo cual pasa a ser el
archivo o fichero activo, y añadir a continuación los datos del otro.
GET FILE=’C:\Spss\Chiapas\nin_vill.sav’ .
ADD FILES FILE=*
/FILE=’C:\Spss\Chiapas\nin_jal.sav’
/IN=municipi
/DROP=d_r.
EXECUTE.
Observe cómo hemos utilizado la opción IN para poder identificar de qué fichero pro-
viene cada niño o, lo que es lo mismo, de qué municipio. También hemos utilizado
DROP para indicar que en el fichero resultante no nos interesaba que estuviera la varia-
ble D_R.
Aunque utilice la primera o segunda posibilidad, no olvide que tiene un nuevo archivo
con una nueva variable. Por tanto:
Ventanas El proceso de añadir casos a un archivo activo, es decir, a un archivo de estructura SPSS
abierto en la ventana de Editor de datos, implica desplegar el menú implícito en Datos
! Fundir archivos ! Añadir casos que se encuentra en la barra de herramientas. Esta
acción abre una nueva ventana Añadir casos: Leer archivo, que se muestra en la figura
5.2.
Una vez seleccionado el archivo que se quiere añadir al que se encuentra ya activo,
pulsando la opción Abrir, se abre una nueva ventana Añadir casos desde... en la que
se describen las variables desemparejadas de ambos ficheros, en el caso de existir, así
como las que estarán presentes en el fichero resultante.
La acción de Aceptar conduce a un fichero resultante de la fusión de los dos archi-
vos, manteniendo el nombre del activo que se había abierto primero.
Si no indica lo contrario, al guardar el archivo resultante lo efectuará con el nombre
del fichero activo.
En teoría, añadir más casos implica que los dos ficheros posean la misma informa-
ción, pero se pueden dar dos situaciones distintas:
1. Los dos ficheros, el activo y el que se acaba de abrir, poseen las mismas variables
pero con nombres distintos.
En este caso, todas las variables en las que no coincide el nombre aparecerán en la
subventana de variables desemparejadas. Todas ellas tienen una marca (*) o (+),
según pertenezcan a uno u otro fichero.
Estas variables desemparejadas se pueden renombrar, mediante la tecla Cambiar el
80 Materials Albert Navarro; Miguel Martín
nombre, o bien a través de la opción Casar, la cual, sin cambiar el nombre de las
variables, indica qué variable de un archivo se corresponde con otra variable del otro
archivo.
Situando el cursor sobre estas teclas y apretando el botón derecho del ratón, obten-
drá la información de cómo renombrar o casar las variables.
2. Los ficheros poseen información que no es común.
En este caso, siempre que se asegure que la situación no es debida a diferencias en
la nomenclatura de las variables, al ejecutar la acción de Aceptar las variables desem-
parejadas no se adicionarán en el archivo definitivo. Una situación de este estilo
debería hacerle revisar si realmente los ficheros son los que pretendía fusionar.
Comentarios 1. Insistimos en que todos los ficheros que intervengan en un ADD FILES deben tener
formato de datos SPSS (.sav).
2. Al fichero activo se le pueden añadir casos de hasta 49 ficheros externos en una
misma instrucción ADD FILES.
3. El fichero resultante mantendrá el nombre del fichero especificado inmediatamente
después del ADD FILES. Luego podrá grabarlo con otro nombre si así lo desea,
opción que es la más recomendable.
Uso profesional del SPSS Materials 81
Creo que sería muy interesante observar cómo varía la nutrición del niño según el
combustible que utilizan para cocinar, ya que imagino que esta variable debe ser un
indicador socioeconómico muy fiable. Estas variables, sin embargo, están regis-
tradas en ficheros separados... ¿Cómo podría realizar este análisis? ¿Cómo puedo
analizar variables que se encuentran en archivos diferentes?
Otra situación que se presenta con cierta frecuencia es la de tener información distri-
buida en diferentes archivos. Es el caso común en estudios censales o de empadronamiento,
o en encuestas como la que ha generado el estudio que estamos analizando.
La información posee diversos niveles y los elementos de cada subnivel se relacio-
nan con el anterior o inmediatamente superior mediante una o varias claves o índices de
relación.
En nuestro caso, el índice implícito en el número de cuestionario, ncuest, permite loca-
lizar y emparejar a los padres y madres de los niños con los mismos, a pesar de que la
información está en ficheros distintos.
Tendríamos en ese caso una información en la que, por ejemplo, podrían existir
diversos niños que fuesen hermanos, aunque no es el caso de nuestro estudio, a los que
se pudiese añadir la información de los padres mediante un índice. En este caso en el
archivo de niños existirían índices repetidos, todos los que corresponden a los herma-
nos, y sin embargo, en el archivo de padre o de madre, este índice estaría una sola vez.
El segundo fichero, el del padre o la madre, recibe el nombre de Tabla o TABLE.
Igual ocurriría si existiese un archivo con la información de la vivienda. A través de
un índice, que sería único para cada casa, se podría añadir la información de la misma
a sus habitantes, los cuales, sean padres o hijos, tendrían en común y, por lo tanto repe-
tidos dichos índices. El archivo de la vivienda sería también un fichero TABLE.
Una segunda situación, distinta a las anteriores, es la que se presenta cuando para cada
caso o individuo se posee una información adicional y no compartida por nadie más.
En este caso, el índice de conexión es el identificador del individuo y los archivos
deberían poseer la misma longitud o número de registros si la nueva información existe
para todos los individuos. En caso de individuos desemparejados, la información de uno
o del otro archivo se asigna como missing o desconocida, pero el individuo o caso estará
en el archivo final.
FILE={fichero} [TABLE={fichero}]
Especifica cuáles son los ficheros que se van a combinar, uno a uno. El fichero resultante
mostrará, en primer lugar (es decir a la izquierda), las variables del primer fichero espe-
cificado en la instrucción (esto es, el nombrado en el primer FILE o en el primer TABLE)
seguidas de las variables del siguiente fichero (identificado en la segunda especifica-
ción FILE/TABLE) y así sucesivamente. Si alguno de los ficheros involucrados en la
instrucción es el activo, éste puede especificarse mediante un *.
En este punto es fundamental distinguir claramente entre FILE y TABLE.
FILE indica un fichero que, además de aportar nuevas variables, puede añadir nuevos
casos al fichero resultante.
Es el segundo caso que se ha indicado en la presentación de este apartado. En nues-
tro ejemplo, añadir la información antropométrica a los datos de ingesta de cada niño apor-
tará nuevas variables a las ya existentes en NINHOS.SAV. Podría darse el caso de que
se tuviese casos desemparejados, o sea, la presencia de información antropométrica de
algún niño del que se desconociese el consumo de proteínas, por lo que el MATCH FILE
aportaría un nuevo caso al fichero final, es decir, un niño más, atribuyendo un valor mis-
sing o desconocido a todas las variables del archivo previo NINHOS.SAV.
De la misma forma, un caso conocido en el que constan las proteínas consumidas y
que no existe en el archivo de datos antropométricos generará en las variables aporta-
das por este último fichero el valor de missing o valor desconocido.
TABLE especifica un fichero que aporta variables al fichero resultante pero nunca casos.
Pueden diferenciarse dos situaciones en las que el uso de TABLE es necesario:
1. Añadir variables dentro de un mismo nivel, pero únicamente a los casos definidos
en el fichero FILE previo.
Es un caso especial al descrito anteriormente. La diferencia es que no se acumulan
los casos desemparejados.
Se utiliza cuando sólo se quiere adicionar variables al conjunto de casos que se están
estudiando, no a todo el conjunto disponible.
2. Añadir de un nivel superior de información variables a los individuos o casos de un
nivel inferior.
Todos los casos están en el fichero definido como FILE y sólo para estos casos se
les atribuyen las nuevas variables existentes en el fichero definido como TABLE.
SAVE OUTFILE=’C:\Spss\Chiapas\nutricio.sav’ .
Ventanas Al igual que en el caso de ADD FILES, no se puede realizar la acción de MATCH FILES
sin un archivo abierto o activo en la ventana de Editor de datos. Así, una vez abierto un
archivo, para efectuar la adición de variables que se encuentran en otro archivo, debe selec-
cionarse en primer lugar dicho archivo. Para ello, tras la acción Datos ! Fundir archi-
vos ! Añadir variables, al abrir el fichero seleccionado se despliega una nueva ven-
tana, figura 5.3, similar a la descrita en el apartado de añadir casos.
Así, en una subventana aparecen las variables que constarán en el nuevo archivo de
trabajo, marcadas con (*) o (+) según sean del primer archivo o activo o bien del segundo.
En otra ventana se describen aquellas variables excluidas, dado que se encuentran repe-
tidas en los dos ficheros.
En principio, en esta ventana deberían constar aquellas variables que se utilizan
como índice o clave de conexión entre los dos ficheros y que son las que, mediante sin-
taxis, constarían en la opción BY.
Aquí también puede darse el caso de que la variable o las variables de conexión
posean diferente nombre en los dos archivos, por lo que no aparecerán en la ventana de
variables excluidas. Mediante la posibilidad de Cambiar nombre puede resolverse esta
dificultad. Para ello deberá seleccionar la variable clave de la ventana Nuevo archivo
de datos de trabajo y llevarla a la ventana de Variables excluidas pulsando sobre la
opción ".
Una vez desplazada puede cambiarla el nombre.
84 Materials Albert Navarro; Miguel Martín
Comentarios 1. Todos los archivos que intervengan en un MATCH FILES deben tener formato de
datos SPSS (.SAV).
2. Al realizar un MATCH FILES con la opción BY, ambos ficheros deben estar orde-
nados de forma ascendente por la variable indicada en el BY.
3. Al fichero activo se le pueden añadir variables de hasta 49 ficheros externos en una
misma instrucción MATCH FILES. Sin embargo, mediante la utilización de venta-
nas, sólo puede realizarse la operación entre dos ficheros.
4. El fichero resultante mantendrá el nombre del fichero especificado inmediatamente
después del MATCH FILES. Luego podrá grabarlo con otro nombre si así lo desea.
Sin embargo, antes de proceder con esta acción, seguro que se ha planteado lo
siguiente: al fusionar ficheros, los archivos son cada vez mayores y más complejos.
¿Cómo puedo trabajar sólo con los datos de un grupo de casos? Porque crear un
archivo con sólo un grupo restringido de variables ya puedo deducirlo. ¿Sí? Sí,
claro, creando un fichero mediante la acción SAVE y mediante la subinstrucción
KEEP o DROP eliminar variables.
Sin embargo, si sólo quisiese trabajar con los niños y niñas de Jaltenango, cuya
madre no haya superado ningún curso escolar y no haya cumplido los 19 años,
¿existe alguna acción programada?
Hasta este momento, todas las acciones propuestas han consistido en la adición de infor-
mación de unos archivos a otros, siendo siempre el resultado un archivo o con más casos
o con más variables.
A menudo, sin embargo, se presenta la situación de necesitar un análisis para un
grupo reducido de casos, grupo o submuestra que generalmente se caracteriza por un
conjunto de propiedades comunes. En nuestro ejemplo podríamos plantearnos una serie
de análisis en el grupo formado por las niñas menores de dos años cuya madre sea menor
de dieciocho años.
Lo más práctico en casos como el descrito consistirá en seleccionar permanente-
mente los datos que cumplen ese conjunto de condiciones y trabajar independientemente
del resto de datos.
Otra situación, no tan frecuente, es la consistente en seleccionar una muestra alea-
toria de los datos ya sea como descripción orientadora cuando el archivo es de gran volu-
men de casos o bien como muestra de validación posterior a la obtención de modelos esta-
dísticos obtenidos con el resto de los datos.
A continuación se describen los dos tipos de acciones correspondientes a las dos
situaciones indicadas.
86 Materials Albert Navarro; Miguel Martín
Sintaxis Con esta primera instrucción se seleccionan, de forma permanente, aquellos casos que
cumplen una condición lógica determinada. Es decir, la ejecución de un SELECT IF
produce un fichero de datos en el que constan los casos especificados y en el que los
casos que no satisfacen la condición desaparecen.
La selección se realiza mediante una rutina pseudoaleatoria que se inicia con una
semilla de aleatorización concreta (por defecto 2000000), la cual se repite cada vez que
se ejecuta una nueva sesión del programa.
Esta semilla se puede alterar mediante la instrucción, ya definida en el primer capí-
tulo, SET SEED = N, en la que N debe ser un entero inferior a 2000000000.
En la práctica, el conocimiento del valor de la semilla sólo presenta utilidad si nos
interesa repetir exactamente una misma selección de casos.
Por ejemplo, en la cuestión planteada al inicio de la explicación de esta instrucción,
trabajar sólo con los niños y niñas de Jaltenango cuya madre no haya superado ningún
curso escolar y no tenga cumplidos los 19 años, haríamos lo siguiente:
Ventanas En la figura 5.4 se muestran las ventanas correspondientes a las instrucciones de selec-
ción de casos. Para obtener dichas ventanas debe ser la secuencia Datos ! Seleccionar
casos. Para que la selección sea realmente permanente y no temporal, debe activar la
opción «Eliminados» en «Los casos no seleccionados son» de la primera ventana que apa-
rece de Seleccionar casos.
Uso profesional del SPSS Materials 87
Esta instrucción selecciona aquellos casos en los cuales la variable filtro toma valo-
res distintos a 0 o missing. Sin embargo, normalmente no tenemos una variable cuyos
valores estén dispuestos de tal forma que 0 y missing correspondan a los casos que nos
interesa que no sean los seleccionados. Luego, antes de utilizar FILTER debemos cons-
truir una variable auxiliar (llamada variable filtro) por la cual se seleccionarán los casos.
Dicha variable puede crearse fácilmente mediante un simple COMPUTE:
Una vez la selección de casos ya no tiene interés y se desea volver a trabajar con
todos los casos, sólo hay que ejecutar:
FILTER OFF.
Siendo seleccio la nueva variable creada que nos sirve para filtrar aquellos casos no
seleccionados.
Ventanas Puede obtenerlas siguiendo la secuencia Datos ! Seleccionar casos. Observe que son
exactamente las mismas que en el caso de desear realizar una selección permanente,
sólo que activando la opción «Filtrados» en «Los casos no seleccionados son».
Uso profesional del SPSS Materials 89
Comentarios 1. Vea cómo la variable filtro se mantiene en el fichero aunque como otra variable cual-
quiera, sin determinar ningún tipo de selección. Puede mantener la variable en el
fichero para que en próximas acciones de selección se use el mismo nombre.
2. En versiones anteriores del programa, existía la posibilidad de seleccionar tempo-
ralmente un subgrupo de datos indicando antes de un SELECT IF la instrucción
TEMPORARY. Aparentemente era más simple que en la versión actual, aunque el
inconveniente es que la temporalidad sólo duraba la ejecución de un análisis deter-
minado, debiéndose repetir la secuencia TEMPORARY. SELECT IF tantas veces
como análisis quisiésemos efectuar.
Los archivos de datos con los que he trabajado hasta el momento presentan la infor-
mación detallada para cada niño. Desearía tener otro fichero, menos voluminoso,
en que la misma información se presentara resumida para cada municipio, según el
sexo del niño y la ocupación del jefe de familia. ¿Puedo construir rápidamente un
fichero de este estilo?
Con frecuencia, una vez analizados unos datos primarios, se desea efectuar el análisis
de información agregada. Por ejemplo, en nuestro estudio, analizar la situación no para
cada caso individual si no considerando únicamente ciertas características de agrupa-
ción de los datos, como el municipio y el sexo o la profesión del padre o bien ua com-
binación de todas ellas.
Es decir, la información se pretende organizar agregada según índices correspon-
dientes a unas variables categóricas, lo que en definitiva es estructurar la matriz de datos
en forma de tabla multidimensional. Pensemos en la descripción de nuestros datos en forma
de tabla de tres dimensiones, siendo las dimensiones el municipio, el sexo y la profesión
del jefe de familia.
Las ocho celdas de esta tabla tridimensional (2 x 2 x 2), describen una situación
90 Materials Albert Navarro; Miguel Martín
común a un número determinado de casos. En una celda concreta, como la que define
la situación específica Villaflores * Femenino * Agropecuario, es posible agregar, ade-
más de la frecuencia de casos con esas características, información de otras variables.
Por ejemplo, podemos agregar en ella características de la variable peso, tanto en forma
de estadístico muestral media, mediana o medidas de dispersión, como de porcentaje o
fracción de individuos pertenecientes a esa categoría múltiple que están por encima,
debajo o igual a un peso determinado.
Esta nueva estructura se podrá guardar como un nuevo fichero para su posterior
manipulación y análisis.
Sintaxis
AGG[REGATE] OUTFILE=fichero
[/MISSING=COLUMNWISE]
[/DOCUMENT]
[/PRESORTED]
/BREAK=lista de variables[({Orden})][lista de variables...]
/aggvar[‘etiqueta’]aggvar[‘etiqueta’]...=función
(argumento)
[/aggvar ...].
[/MISSING=COLUMNWISE]
Indica que si en una clasificación que se plantea, mediante las variables categóricas
que se especifican en BREAK, hay casos con información perdida o desconocida en los
índices, se mantenga la casilla indicando el componente missing de la celda.
[/DOCUMENT]
[/PRESORTED]
Indica que el fichero está ordenado a partir de las variables clasificadoras descritas
en BREAK.
Por defecto, cada vez que se efectúa la agregación la instrucción efectúa un SORT.
/aggvar[‘etiqueta’]aggvar[‘etiqueta’]...=función
(argumento)
Como puede observarse, todas las funciones están previstas para agregar variables
numéricas, sin embargo también presentan ciertas utilidades para variables cadena o
alfanuméricas. Por ejemplo las funciones lógicas o de clasificación.
De todas formas, a pesar de que es factible efectuar una agregación en las que alguna
variable de agrupación sea de tipo cadena o alfanumérica, esta posibilidad no se espe-
cifica con claridad en los manuales debido a los problemas que puede presentar la orde-
nación de valores de variables de esta naturaleza cuando tienen una longitud de carac-
teres grande. Así, la ordenación alfabética del nombre y dos apellidos de un fichero de
individuos puede requerir una memoria de trabajo no accesible en muchos casos, por lo
que no se indica su uso.
En nuestro ejemplo podríamos agregar, por municipio y sexo, el número de niños,
la edad, peso y talla media de los mismos.
AGGREGATE OUTFILE=’C:\Spss\Chiapas\base_agr.SAV’
/BREAK=municipi sexo jocupa
/med_tall ‘Talla en promedio’ = MEAN(tall_cms)
/med_pes ‘Peso en promedio’ = MEAN(peso_kg)
/frec=N.
Observe cómo, si bien teóricamente, dicho archivo debería constar de ocho casos
(las ocho posibles combinaciones generadas por los dos valores de municipi, los dos de
sexo y los dos de jocupa), realmente tiene dieciocho. Como podrá comprobar esto es
debido a que la variable sexo tiene, además de los valores esperados, otros que contie-
nen errores de tecleo o escritos de forma distinta a la mayoritaria.
Este problema es típico cuando se trabaja con variables alfanuméricas. Éstas, al per-
mitir cualquier carácter, son de muy difícil control a posibles errores y por eso siempre
se aconseja trabajar con variables numéricas, aunque su naturaleza sea de tipo categó-
rico. Una vez el analista recibe los datos, debe intentar subsanar dicho problema con-
virtiendo las variables alfanuméricas en numéricas. Sin embargo, para atacar eficaz-
mente el problema debe preverse en el momento en el que se prepara el programa de
captación de datos. Cuando el diseño de la recogida de datos tiene en cuenta dicha pre-
vención, es síntoma de la calidad de los mismos y evita la pérdida innecesaria de tiempo.
Desdichadamente, muy a menudo, el analista no interviene en un estudio hasta el momento
en que los datos ya están registrados...
Segmentar un fichero
Al ejecutar la instrucción SPLIT FILE, los análisis subsiguientes, todos los que se
indiquen hasta que se ejecute SPLIT FILE OFF, segmenta el archivo en estratos corres-
pondientes a la combinación de las categorías de las variables que se indican en la lista.
[{forma de presentación}]
BY lista de variables.
Lista de variables por las que se segmenta el archivo. Deben estar en el mismo orden
que en la instrucción SORT previa, la cual es obligatoria.
{ANÁLISIS VARIOS}
Esta sintaxis generaría un análisis estratificado por municipio y ocupación del cabeza
de familia de la talla y peso de los niños del estudio. Es decir, para las cuatro posibles
combinaciones generadas por municipi y jocupa (Villaflores/Agropecuario, Villaflo-
96 Materials Albert Navarro; Miguel Martín
Figura 5.8. Ventana que permite el análisis de un archivo por segmentos o estratos.
Uso profesional del SPSS Materials 97
GET FILE=’C:\Spss\Chiapas\nin_vill.sav’ .
*****************************************************************.
* Añadimos casos *.
*****************************************************************.
*****************************************************************.
* Añadimos variables *.
*****************************************************************.
GET FILE=’C:\Spss\Chiapas\antrop.sav’ .
SORT CASES BY ncuest nomper.
SAVE OUTFILE=’C:\Spss\Chiapas\antrop.sav’ .
GET FILE=’C:\Spss\Chiapas\casa.sav’ .
SORT CASES BY ncuest.
SAVE OUTFILE=’C:\Spss\Chiapas\casa.sav’ .
98 Materials Albert Navarro; Miguel Martín
GET FILE=’C:\Spss\Chiapas\jefe.sav’ .
SORT CASES BY ncuest.
SAVE OUTFILE=’C:\Spss\Chiapas\jefe.sav’ .
Introducción
A lo largo del proceso de trabajo con un fichero de datos surge, casi siempre, la necesidad
de transformar las variables ya existentes o de crear nuevas a partir de las ya conocidas.
Variables registradas en el archivo de datos se transforman para obtener el máximo
de información, puesto que posiblemente su descripción, una vez transformada, es más
relevante que la recogida originalmente.
Un ejemplo clásico de esta situación es la edad del individuo. Habitualmente los
estudios registran dicha variable en años, aunque probablemente a posteriori se describa
según determinados grupos de edad de interés para el investigador. Debemos notar en
este punto que el hecho de que la descripción se realice según unos grupos de edad deter-
minados no significa que en el diseño de la hoja de recogida de datos lo lógico fuera
establecer directamente a qué grupo etáreo pertenece el individuo. Por el contrario, la reco-
gida de la edad en años será más interesante, puesto que permitirá obtener fácilmente una
variable que exprese la misma información (la distribución de los grupos deseados) más
otra información complementaria, a partir de la variable original, que puede ser también
relevante. Además, el conocimiento de la edad en años permitirá configurar los grupos
de edad de formas diversas y no exclusivamente tal y como se había pensado inicial-
mente.
En otros casos, también muy frecuentes, ni siquiera sería interesante la edad en años
que tenían los individuos en el momento del estudio, ya que si se trata de un estudio de
seguimiento o longitudinal, nos interesa la fecha de nacimiento del individuo así como
la de su ingreso en el estudio. En este caso tendríamos permanentemente la posibilidad
de considerar la edad del individuo al inicio del estudio así como en el momento del
análisis, si así fuese de interés.
En general y sea cual sea la variable, existe una regla no escrita aplicable a la reco-
gida de datos y que podría resumirse en que siempre hay que intentar obtener la infor-
mación lo más desagregada posible. De todas formas, debe valorarse a priori el esfuerzo
que esto implica y, finalmente, buscar el equilibrio deseable entre el detalle con que se
describe la información, el esfuerzo para obtener ese nivel de detalle y la necesidad para
el análisis que se pretende realizar.
Por otra parte, la posibilidad de crear nuevas variables a partir de otra u otras ya
existentes en la base, es otro recurso valioso para describir lo más detalladamente posi-
ble los datos observados.
Otro ejemplo clásico en estudios de identificación de factores de riesgo sobre un
problema en salud pública, lo encontramos en las variables número de dormitorios de
la casa y Total de personas que viven en la casa. La información que podríamos extraer
de cada una de ellas individualmente sería poco relevante, pero un indicador del tipo
número de personas que viven en la casa por dormitorio, como medida de hacinamiento,
proporciona una información mucho más interesante.
100 Materials Albert Navarro; Miguel Martín
Así, a partir del registro de dos variables en las bases de datos originales se creará
una tercera, cuyo estudio puede aportar aún más información. En este caso, cabe indi-
car que el registro de esta tercera variable en los archivos originales sólo significaría
una redundancia y un trabajo adicional innecesario.
Podría considerarse la posibilidad de recoger directamente la variable hacinamiento,
pero ello no liberaría de tener que recoger en el estudio el número de personas o el de
dormitorios, ya que son indicadores utilizados en la creación o el ajuste de otras varia-
bles.
En este capítulo, si bien veremos la mayoría de las instrucciones que se utilizan para
la creación de una nueva variable o modificar una ya existente, debemos considerar una
cuestión previa:
¿Con qué formato? En el caso en que se desee crear una nueva variable, como no ha sido definida en el
DATA LIST o mediante la lectura de una base de datos, antes de la creación deberá defi-
nirse con qué formato se piensa definir la nueva variable.
Por defecto, el formato de las nuevas variables es siempre de naturaleza numérica y
cómo puede observarse en los settings o condiciones de instalación (Edición ! Opcio-
nes de la barra de herramientas), el formato es F8.2. Así, si el resultado de alguna de estas
instrucciones es una nueva variable numérica sólo se requerirá ejecutar la instrucción y
automáticamente se le asignará ese formato. Por el contrario, si se desea crear una varia-
ble de naturaleza cadena o alfanumérica, es obligatoria la ejecución previa de declara-
ción de cadena.
Creación de variables
En nuestro estudio, la definición del estado nutricional de cada niño se realizará basán-
dose en las proteínas consumidas habitualmente en función de la edad del mismo. Una
búsqueda detallada de criterios externos para catalogar a los niños como bien o mal
nutridos no obtuvo resultados, pues las clasificaciones encontradas en la literatura eran
excesivamente amplias y no se ajustaban a la especificidad de los grupos de edad estu-
diados. Finalmente, se optó por considerar cuatro grupos de edad ([12,24) meses, [24,36)
meses, [36-48) meses y [48-60) meses) y dentro de cada uno se clasificó como «mal
nutridos» a aquellos niños que se situaron en el primer tercil en cuanto a proteínas con-
Uso profesional del SPSS Materials 101
sumidas. Dicho de otra forma, se determinó que el 33% de niños con el consumo de pro-
teínas inferior en cada grupo serían considerados como aquellos que no cumplían el
patrón de adecuación alimentaria. Observe la tabla 6.1. En ella se detallan el criterio de
clasificación de la adecuación alimentaria que se utilizará en la continuación del ejem-
plo (una vez haya leído el próximo capítulo estará en condiciones, sin dificultad, de
resolver cómo se obtuvieron estas cifras).
Tabla 6.1. Criterio de adecuación alimentaria en función de los gramos de proteínas consumidas,
según el grupo de edad.
Era lógico pensar que, a medida que aumenta la edad del niño, la cantidad diaria de
proteínas necesarias para ser catalogado en estado nutricional adecuado también se incre-
mentaría.
Ahora que conozco el criterio a aplicar para considerar a un niño bien o mal nutrido
sólo debo construir la variable que lo calcule para cada uno. Necesito el total de pro-
teínas... y en el fichero constan los animales y los vegetales por separado. ¿Hay
alguna forma de que el programa las sume directamente?
Para crear una variable existe una instrucción única, la cual, debido a su gran flexi-
bilidad, puede efectuar esa creación según unas operaciones específicas entre variables
ya existentes en el archivo o bien modificar una variable del fichero a través de opera-
ciones matemáticas definidas.
Sintaxis
Expresión:
Puede indicar cualquier operación que involucre constantes o variables del fichero
mediante los operadores que se describen en la tabla 6.2. Además de estos operadores,
existen una serie de funciones predeterminadas disponibles para los usuarios. Algunas
de estas funciones, que la experiencia nos indica que son las más utilizadas, se descri-
ben a continuación.
102 Materials Albert Navarro; Miguel Martín
Operadores Descripción
Aritméticos
+ Suma
– Resta
* Producto
/ Cociente
** Exponente
Relacionales
EQ (Equal) = Igual
NE (Non equal) <>o~= Diferente
LT (Less than) < Menor que
LE (Less than or Equal to) <= Menor o igual que
GT (Greater than) > Mayor que
GE (Greater than or Equal to) >= Mayor o igual que
Lógicos
AND & Las dos condiciones son ciertas
OR ⏐ Alguna condición es cierta
NOT ~ Condición falsa o excluyente
Además de los operadores descritos en esta tabla, existe una gran diversidad de fun-
ciones programadas para realizar las transformaciones más usuales.
En principio existen, entre otras, funciones de naturaleza aritmética para la creación
o transformación de variables numéricas, funciones para la manipulación de variables
string o cadena, de variables fecha o de cálculo de propiedades estadísticas sencillas.
En la tabla 6.3 se muestran ejemplos de las funciones de uso más frecuente.
Uso profesional del SPSS
sin ellos.
103
104
Materials
SUBSTR(expr_alf,pos,long) Alfanumérico Crea una variable alfanumérica con los long caracteres que se encuentran V1 SUBSTR(V1,4,3)
a partir de la posición pos de la expr_alf . Abcdefgh def
CTIME.DAYS(valortiempo) Numérico Para cada una de les fechas incluídas valortiempo calcula los días V1 = 21-12-2000; V2 = 10-12-2000;
transcurridos desde el 15 d’octubre de 1582. Luego efectúa las operaciones CTIME.DAYS(V1-V2) = 11
indicadas y retorna el número de días resultantes. Útil para registrar los días
entre dos fechas.
DATE.DMY(día,mes,año) Fecha Retorna la fecha especificada día, mes y año, datos que deben existir en tres VD=18; VM=6; VA=1974;
variables diferenciadas. Así, coloca en una sola variable una fecha que estaba DATE.DMY(VD,VM,VA) = 18-6-1974
expresada en tres variables distintas. Para visualizar correctamente la nueva
variable, debe asignarle previamente un formato DATE.
DATE.YRDAY(año,num_día) Fecha Rehace la fecha correspondiente al año y número de día del año existentes VD=27; VA=2002;
en dos variables previamente definidas. También debe asignar previamente DATE.YRDAY(VA,VD) = 27-01-2002
a la nueva variable un formato de tipo DATE.
YRMODA(año,mes,día) Numérico Calcula el número de días desde el 15 de octubre de 1582 hasta la fecha VD = 16; VM = 10; VA = 1582;
representada por los argumentos año, mes y día. YRMODA(VA,VM,VD) = 2.
NMISS(variable[,...]) Numérico Recuenta cuantos missings de sistema y usuario existen entre las variables V1 V2 V3 NMISS(V1,V2,V3)
descritas en el argumento. 10 , 55 1
Albert Navarro; Miguel Martín
Uso profesional del SPSS Materials 105
Comentarios 1. Si el nombre de variable asignado ya existe, los valores que poseía la variable serán
reemplazados por el resultado obtenido al aplicar la expresión.
2. Cada nueva variable o cada nueva modificación requiere una instrucción COMPUTE
distinta.
Puesto que hemos creado una nueva variable, debemos caracterizarla. Al ser una
variable cuantitativa, (por defecto), sin ningún valor a etiquetar ni missings de usuario,
sólo debemos especificar la etiqueta de variable:
Una vez calculadas las proteínas totales deberíamos realizar la clasificación basán-
donos en el grupo de edad, operación que será explicada más adelante.
No obstante, ésta no es la única variable que podríamos crear o necesitar más ade-
lante. Entre los factores o variables descritos en la literatura que pueden asociarse a este
tipo de problemas está la variable hacinamiento, es decir, número de personas por cada
cuarto destinado a dormir. Efectivamente, ésta es una variable utilizada habitualmente,
ya que permite conocer la concentración de personas en una casa, lo cual puede ser un
buen indicador socioeconómico de la misma. Vamos a crearla ya que no está recogida
directamente en los archivos.
Ventanas Las ventanas que permiten la creación de nuevas variables o bien su modificación se
abren después de pulsar la secuencia Transformar ! Calcular... de la barra de herra-
mientas del Editor de datos.
106 Materials Albert Navarro; Miguel Martín
Observe cómo debajo del recuadro en el que debe poner el nombre de la variable resul-
tante puede definir el formato y etiqueta de la variable.
Mediante la opción Si... puede señalar que la acción del COMPUTE se lleve a cabo
en un subgrupo específico de casos que cumplan la condición que se indique. En caso
de que la expresión afecte a todos los casos sin distinción, no debe especificar nada.
En el recuadro de la derecha puede visualizar todas las funciones disponibles y apre-
tando el botón derecho del ratón se abre un recuadro con un resumen de la acción aso-
ciada a la función señalada por el cursor.
Como puede entenderse con facilidad, esta opción sólo tiene sentido si la instrucción
implica la modificación de una variable ya definida y no en la creación de una variable
nueva. En este último caso, a todos los valores que no cumplen la condición les asigna-
ría el valor de missing de sistema.
Después de Aceptar la expresión, observará que en la hoja Vista de datos, del Edi-
tor de datos, se ha abierto una nueva columna, con una variable de nombre protot,
mientras que la correspondiente a Vista de variables le indica que esta nueva variable es
de tipo numérico, de 8 caracteres de anchura y dos decimales, es decir en formato F8.2.
Recodificación de valores
Transforma, pues, los valores especificados en la lista de valores de una o más varia-
bles, substituyéndolos por los que se especifican valor nuevo.
Uso profesional del SPSS Materials 107
Esta instrucción puede parecer muy compleja pero en realidad es muy sencilla. Pon-
gamos un ejemplo: imagine un niño que nació el día 1-7-1992 y se le examinó el día
2-7-1994.
Debe analizar primeramente qué sucede dentro del paréntesis:
1. La instrucción ctime.days (ver tabla 6.3.) calcula el total de días transcurridos entre
la fecha de entrevista y de nacimiento. Observe cómo, en el ejemplo, transcurrieron
731 días entre ambas fechas.
2. Entonces dividimos esta cifra por 30.41 (365/12) para pasar de días a meses. En
nuestro ejemplo: 731/30.41 = 24.04
3. Finalmente, mediante TRUNC (ver tabla 6.3.) redondeamos la cifra al número entero
por debajo, es decir 24.
4. Observe cómo realmente el niño del ejemplo, en el momento en que se cumplimentó
el cuestionario, tenía 24 meses.
* Creamos una nueva variable que agrupe a los niños en los cua-
tro *.
* grupos de edad deseados *.
RECODE edadmes
(12 thru 23=1) (24 thru 35=2) (36 thru 47=3) (48 thru 59=4)
INTO edad4 .
EXECUTE .
Ud. podrá haber advertido que hay una manera mucho más sencilla de construir la
variable edad en los cuatro grupos deseados:
Pero debido a que estamos tratando con individuos de edad muy temprana, se con-
sideró interesante tener también la edad expresada en meses para realizar, en el momento
de la descripción de los datos registrados, una descripción más detallada y ajustada.
Observe, también, las variables que hacen referencia al material en que está cons-
truido el suelo o las paredes del hogar. Ambas presentan bastantes categorías y muchas
de ellas con muy pocas observaciones. Eso dificultará, evidentemente, su descripción con-
junta con otra variable puesto que creará situaciones observacionales sin ningún caso.
Quizás piense en la posibilidad de agrupar categorías en función de determinadas carac-
terísticas. Pues bien, una de esas posibles agrupaciones sería considerar ambas varia-
bles con sólo dos categorías: 1 «tierra», 2 «con recubrimiento». Le proponemos que cree
dos nuevas variables que categoricen de esta forma. Los valores que corresponderían a
«tierra» serían el 1, el 4 y del 11 al 14. Los demás corresponderían a «con recubrimiento»:
RECODE
piso paredes (1=1) (4=1) (11 thru 14=1) (ELSE=2)
INTO piso2 paredes2 .
EXECUTE .
FOR piso2 paredes2 (F1.0) .
VAR LAB piso2 ‘Material del piso’
/ paredes2 ‘Material de las paredes’ .
VAL LAB piso2 paredes2 1 ‘tierra’ 2 ‘con recubrimiento’ .
[(CONVERT)]
ble, ya que si la recodificación se efectúa sobre la variable original los valores ori-
ginales no mencionados mantienen su valor intacto.)
Comentarios 1. Recodifique sobre la misma variable siempre que esté absolutamente seguro de que
ya no necesitará la información original. (De todas formas, es recomendable guar-
dar siempre las bases de datos originales para poder recuperar la información en
todo momento.)
2. Si bien crear una nova variable evita la posibilidad de perder información necesa-
ria, piense que cuanto mayor sea un fichero, sobre todo cuantas más variables con-
tenga, más molesto es trabajar con él y manipularlo.
Ventanas Para determinar si recodifica los valores originales en la misma variable o en una nueva,
debe realizar la elección en: Transformar ! Recodificar, acción que se muestra en la
siguiente figura:
Figura 6.2. Menú para elegir recodificar una variable en ella misma o en una nueva.
Si elige recodificar los valores creando una nueva variable, obtendrá las siguientes
ventanas:
Transformación condicionada
Sintaxis La transformación puede realizarse sobre una variable destino ya existente en el fichero
activo o crear una nueva. En la práctica es una instrucción COMPUTE condicionada.
Comentarios 1. Como siempre, si la asignación realizada se efectúa sobre una nueva variable y ésta
ha de ser alfanumérica, previamente hay que crearla mediante la expresión STRING.
2. Pueden enlazarse diversas instrucciones IF para realizar transformaciones según
diversas condiciones. De esta manera podría efectuar un RECODE, ya explicado, o
bien los bucles de DO IF que se explican en el apartado de instrucciones siguiente.
Transformar ! Calcular...!
! Si...
La expresión de las condiciones lógicas que se indican sigue las mismas normas que
en el caso ya explicado del IF.
transformaciones
Por transformaciones se entiende cualquier instrucción del tipo COMPUTE, RECODE
o COUNT (ver siguiente instrucción) y pueden combinarse entre ellas en un mismo DO
IF – END IF.
[ELSE IF]:
Especifica una condición concreta que se evaluará sólo en el caso en que no se cumplan
las condiciones explícitas del DO IF o de los anteriores ELSE IF si éstos existiesen. El
programa ejecutará la transformación u operación que consta en la transformación corres-
pondiente, sólo en el caso en que sea cierta esta condición evaluada.
[ELSE]:
Indica que se realizará la transformación que se indica a continuación, si ninguna de las
condiciones lógicas especificadas anteriormente, en el DO IF o en los ELSE IF, se ha cum-
plido.
Sería equivalente a decir que, en cualquier otro caso no especificado en los condi-
cionantes anteriores, se ejecute la instrucción que se indica a continuación.
Si se especifica, es siempre la última condición de un bucle DO IF-END IF.
END IF.:
Es siempre una instrucción obligatoria para finalizar el bucle de transformaciones con-
dicionadas.
Comentarios Podemos considerar situaciones en las que el bucle DO IF-END IF no incluya situacio-
nes ELSE IF pero sí indique una subinstrucción ELSE. Por el contrario, si se especifi-
can una o más ELSE IF puede no constar la expresión ELSE final. Lo que no tiene sen-
tido es un DO IF-END IF sin ninguna de las dos posibilidades especificadas, ya que en
ese caso sería una instrucción IF simple. Por último, hay que insistir en que si están pre-
sentes las dos opciones, ELSE IF y ELSE, esta última forzosamente es la última de todas
las expresiones de condición.
114 Materials Albert Navarro; Miguel Martín
DO IF (edad4=1) .
RECODE protot (Lowest thru 22.09=0) (22.1 thru Highest=1) INTO
nut .
ELSE IF (edad4=2).
RECODE protot (Lowest thru 27.59=0) (27.6 thru Highest=1) INTO
nut .
ELSE IF (edad4=3).
RECODE protot (Lowest thru 27.89=0) (27.9 thru Highest=1) INTO
nut .
ELSE IF (edad4=4).
RECODE protot (Lowest thru 30.39=0) (30.4 thru Highest=1) INTO
nut .
END IF .
EXECUTE .
Observe cómo, en este caso, el último ELSE IF hubiera podido ser igualmente un
ELSE. Sin embargo es preciso ser cautos ya que no siempre es así. Si la variable o varia-
bles expresadas en la condición lógica presentan missings, con el uso de ELSE, estos casos
tomarían el último valor nuevo especificado en la instrucción. Por el contrario, con ELSE
IF seguirían siendo missing en la nueva variable.
Así mismo, si esta nueva variable se hubiese pensado en formato alfanumérico, se
habría definido, antes del bucle DO IF – END IF, la expresión STRING NUT (A2) y defi-
niendo en las expresiones lógicas =’No’ o =’Si’ en vez de los valores numéricos 0 o 1.
Ventanas Estrictamente no existe ninguna ventana que represente la instrucción DO IF – END IF.
De hecho, una instrucción de este tipo abarcaría operaciones con las ventanas del COM-
PUTE, RECODE y COUNT siempre especificando subgrupos de casos mediante Si...
Uso profesional del SPSS Materials 115
(lista de valores)
Debe indicarse de forma explícita el valor o grupo de valores que se observará si están
presentes o no en la lista de variables. Si hay más de un valor en la lista de valores, éstos
se separan mediante una coma o espacio en blanco. Pueden utilizarse como definitorios
de valores las expresiones MISSING, SYSMIS, LO(WEST), HI(GHEST) y THRU.
Pueden implicarse en el recuento tanto variables numéricas como alfanuméricas.
Imagínese que el investigador del estudio cree que las variables que hacen referen-
cia a las condiciones del hogar (sanit, luz, refr, tv, com_coc, piso2, paredes2) son todas
ellas indicadoras del poder socioeconómico de la familia. Además quiere considerarlas
conjuntamente, pues justifica que no es lo mismo una familia que presenta en cada una
de estas variables la peor característica que otra que sólo la presenta en alguna de ellas.
Opina, entonces, que sería interesante saber para cada familia cuántas características
«desfavorables» presenta a la vez. Luego parece lógica la creación de un índice que sería
un indicador que se aproximaría a la condición socioeconómica de la familia estudiada.
Una manera de hacerlo sería contar el número de características «desfavorables» que
cada casa presenta en las variables mencionadas:
COUNT
cse = sanit (2,3) luz (0) refr (0) tv (0) com_coc (1) piso2
(1) paredes2 (1) .
EXECUTE .
El resultado de esta instrucción será la creación de una nueva variable, cse, con un
rango de valores válidos entre 0 y 7, indicando el 7 que cumple en cada una de las varia-
bles las categorías consideradas como más desfavorables.
116 Materials Albert Navarro; Miguel Martín
Ventanas La activación de las ventanas, figura 6.5, se obtiene pulsando la secuencia Transformar
! Contar apariciones...
Comentarios 1. El resultado de un COUNT siempre es una variable que presenta valores en un rango
comprendido entre 0, es decir, en la lista de variables no aparece ninguna vez el con-
junto de valores definido en la lista de valores, y N, el número de variables que cons-
tan en la lista de variables. En este último caso, en todas las variables definidas en
la lista aparecería alguno de los valores especificados.
2. La especificación de determinados valores para unas variables y otros valores dife-
rentes para otras variables en la instrucción COUNT es imposible de realizar traba-
jando directamente en las ventanas. Dicho problema no existe si trabaja mediante la
sintaxis.
Uso profesional del SPSS Materials 117
GET FILE=’C:\Spss\Chiapas\Nutricio.sav ‘.
RECODE carne
(CONVERT) (‘NS’=7) (‘NC’=8) INTO fr_carne .
EXECUTE .
VAR LEV fr_carne (NOMINAL) .
VAR LAB fr_carne ‘Frecuencia de ingesta de carne’ .
VAL LAB fr_carne 1 ‘1 vez mínimo / 3 días’ 2 ‘1 o 2 veces /
semana’ 3 ‘1 vez / 15 días’ 4 ‘1 vez / mes’ 5 ‘Menos de
1 vez / mes’ 6 ‘Casi nunca o nunca’ 7 ‘NS’ 8 ‘NC’ .
MIS VAL fr_carne (7,8) .
RECODE
edadmes
(12 thru 23=1) (24 thru 35=2) (36 thru 47=3) (48 thru 59=4)
INTO edad4 .
EXECUTE .
DO IF (edad4=1) .
RECODE protot (Lowest thru 22.09=0) (22.1 thru Highest=1) INTO nut .
ELSE IF (edad4=2).
RECODE protot (Lowest thru 27.59=0) (27.6 thru Highest=1) INTO nut .
ELSE IF (edad4=3).
RECODE protot (Lowest thru 27.89=0) (27.9 thru Highest=1) INTO nut .
ELSE IF (edad4=4).
RECODE protot (Lowest thru 30.39=0) (30.4 thru Highest=1) INTO nut .
END IF .
EXECUTE .
RECODE
piso paredes (1=1) (4=1) (11 thru 14=1) (ELSE=2)
INTO piso2 paredes2 .
EXECUTE .
FOR piso2 paredes2 (F1.0) .
VAR LAB piso2 ‘Material del piso’
/ paredes2 ‘Material de las paredes’ .
VAL LAB piso2 paredes2 1 ‘tierra’ 2 ‘con recubrimiento’ .
COUNT
cse = sanit (2,3) luz (0) refr (0) tv (0) com_coc (1) piso2 (1)
paredes2 (1) .
EXECUTE .
FOR cse (F1.0) .
VAR LAB cse ‘Clasificación socioeconómica’
Introducción
La primera acción que el analista debe realizar, una vez definida por completo la matriz
o base, es el control de calidad de los datos disponibles. Olvidada a veces, esta fase debe
considerarse indispensable para asegurar la calidad de los resultados obtenidos, así como
para el ahorro máximo de tiempo de análisis. En este punto, las etapas del control de
calidad son:
120 Materials Albert Navarro; Miguel Martín
1. Definición de missings:
En primer lugar, debemos observar que los valores de variables numéricas que apa-
recen con el carácter de la coma o el punto, en el Editor de datos, efectivamente son
missing de sistema y no ceros u otro valor (a veces, al introducir los datos, por como-
didad, se deja la variable en blanco en vez de poner un 0).
A continuación examinaremos si existen variables con una cantidad importante de
falta de información. Es obvio que la calidad de la información registrada depende
de la cantidad de missings observados. Aunque no existe un criterio definitivo, algu-
nos autores sitúan en un 5% el número máximo deseable de casos sin información.
También debemos controlar que todos los valores missing de usuario están defini-
dos y que la definición se ha efectuado de forma adecuada.
Podrá apreciar cómo el nivel de explicación de las instrucciones usadas para el con-
trol de calidad, aunque suficiente, es mínimo. Esto se debe a que las mismas instruc-
ciones serán explicadas más detalladamente en los distintos apartados de la descripción
de variables.
Sintaxis Una vez abierto el archivo de interés, para localizar los valores imposibles existen, a
escala práctica, dos procedimientos. La elección de cuál utilizar depende de que la varia-
ble sea de naturaleza continua o categórica, tanto nominal como continua discreta.
Si es continua, utilice DESCRIPTIVES:
También en este caso, mediante el menú que se activa a través de Analizar ! Esta-
dísticos descriptivos ! Frecuencias, el lector podrá percibir la gran variedad de esta-
dísticos muestrales para variables cuantitativas discretas, así como los gráficos disponibles.
Otra cuestión a tener en cuenta cuando se trabaja con variables de tipo fecha es que
si hay dos o más que determinan períodos entre ellas que éste se cumpla. Por ejemplo,
en nuestro caso, la fecha de nacimiento siempre tiene que ser, obviamente, anterior a la
fecha de la entrevista. Para examinar dicha cuestión podemos utilizar la siguiente ins-
trucción:
Ahora, mediante el FREQ, deberíamos asegurarnos de que no hay ningún caso con
valor negativo o cero, ya que si así fuera significaría que una de las dos fechas (o ambas)
sería incorrecta. Observe, sin embargo, que en nuestro estudio dichas fechas nos sirvie-
ron para crear la variable edad y, por tanto, al describir ésta ya no haría falta crear esta
variable DIF. Sin embargo, pensamos que es importante recalcar esta posibilidad puesto
que, en muchos otros estudios, puede encontrarse con casos como el descrito: imagine,
por ejemplo, que se analiza el tiempo transcurrido entre la fecha de determinada lesión
y el éxitus, o el tiempo que pasa desde que se hospitaliza a un paciente hasta que se le
da el alta.
Resultados En el listado de los resultados obtenidos, es decir en la ventana Visor SPSS o bien en
la ventana Visor borrador SPSS (dependiendo de en cuál de ellas esté trabajando),
observamos los siguientes errores:
1. En la variable sexo se registran nueve categorías distintas, tabla 7.1, aunque teóri-
camente sólo debería poseer dos. Fíjese como el blanco es considerado como una cate-
goría válida, tres de las categorías son debidas claramente a errores de tecleo y las
otras a la distinta consideración que un carácter alfabético posee en función de estar
escrito en mayúsculas o minúsculas.
SEXO
Porcentaje Porcentaje
Frecuencia Porcentaje válido acumulado
Válidos 1 ,2 ,2 ,2
FEMENINO 2 ,4 ,4 ,6
Femenino 12 2,5 2,5 3,2
FEMENINO 218 46,2 46,2 49,4
FEMENINP 1 ,2 ,2 49,6
FEMENU9 1 ,2 ,2 49,8
MASCLINO 1 ,2 ,2 50,0
Masculino 7 1,5 1,5 51,5
MASCULINO 229 48,5 48,5 100,0
Total 472 100,0 100,0
De esta manera cualquier valor es posible. Dicho en otras palabras, escriba lo que
escriba en el campo correspondiente a la variable SEXO, será aceptado por el pro-
grama. Este comentario no va en detrimento del uso de variables cadena o string, pero
sí muestra la necesidad de poner filtros y controles en la entrada de datos, sobre todo
con este tipo de variables.
2. En la variable edad de la madre hay un valor igual a 95, que, teniendo en cuenta que
el estudio es del estado nutricional de niños, es imposible. Además, debemos notar
el alto porcentaje de missings en la variable edad de la madre: 9,7% de los valores
son desconocidos.
3. Existe un caso cuyo valor en la ocupación de la madre es 4, lo cual es imposible ya
que es un valor que no se corresponde con ninguna de las categorías previstas en la
codificación original.
4. Observe la información referente a la edad del cabeza de familia. ¡El más viejo tiene
510 años!
COMPUTE filtro=(sexo=’ ‘) .
FILTER BY filtro .
EXECUTE .
FREQ ncuest .
Tabla 7.2 Identificación del caso en el que el valor de sexo está en blanco.
Nº identificativo de la casa
Porcentaje Porcentaje
Frecuencia Porcentaje válido acumulado
Válidos 426 1 100,0 100,0 100,0
COMPUTE filtro=(ed_madre=95) .
FILTER BY filtro .
EXECUTE .
FREQ ncuest.
124 Materials Albert Navarro; Miguel Martín
Tabla 7.3. Identificación del caso en el que el valor de edad de la madre está fuera de rango.
Nº identificativo de la casa
Porcentaje Porcentaje
Frecuencia Porcentaje válido acumulado
Válidos 397 1 100,0 100,0 100,0
COMPUTE filtro=(mocupa=4).
FILTER BY filtro .
EXECUTE .
FREQ ncuest .
Tabla 7.4. Identificación del caso en el que el valor de ocupación de la madre es erróneo.
Nº identificativo de la casa
Porcentaje Porcentaje
Frecuencia Porcentaje válido acumulado
Válidos 397
305 1 100,0 100,0 100,0
COMPUTE filtro=(ed_jefe=510).
FILTER BY filtro .
FREQ ncuest .
Tabla 7.5. Identificación del caso en el que el valor de la edad del jefe de familia es erróneo
Nº identificativo de la casa
Porcentaje Porcentaje
Frecuencia Porcentaje válido acumulado
Válidos 397
305
382 1 100,0 100,0 100,0
RECODE
ed_madre (95=SYSMIS) .
EXECUTE .
RECODE
mocupa (4=SYSMIS) .
Uso profesional del SPSS Materials 125
EXECUTE .
RECODE
ed_jefe (510=SYSMIS) .
EXECUTE .
COMPUTE sexo=LTRIM(UPCAS(sexo)) .
EXECUTE .
RECODE
sexo (‘ ’=‘MASCULINO’) (‘FEMENU9’=‘FEMENINO’)
(‘FEMENINP’=‘FEMENINO’) (‘MASCLINO’=‘MASCULINO’) .
EXECUTE .
Quizás la instrucción para que la variable sexo presente exclusivamente dos cate-
gorías necesite una ligera explicación: observe cómo se utilizan dos instrucciones (un
COMPUTE y un RECODE). Mediante la primera obtenemos una variable en que cada
uno de sus valores se alinean a la izquierda (LTRIM) y cuyos valores están expresados
todos en mayúsculas (UPCAS). Mediante el RECODE arreglamos los errores de digi-
tación y el valor en blanco que sabemos que realmente es ‘MASCULINO’. Observe
como, por ejemplo, no se especifica ‘Masculino’ puesto que ese valor se transformó a
todo mayúsculas al usar UPCAS.
Finalmente transformamos la variable sexo a formato numérico, dando un valor de
etiqueta a cada uno de los dos valores resultantes.
RECODE sexo
(‘MASCULINO’=1) (‘FEMENINO’=2) INTO sex .
EXECUTE.
VAR LEV sex (NOMINAL).
VAL LAB sex 1 ‘Masculino’ 2 ‘Femenino’ .
Descripción de variables
¿Cómo se describe La descripción estadística tiene como función principal explicar los datos observados
una variable? sin tener que especificarlos uno a uno individualmente. Se trata, pues, de obtener valo-
res que representen un resumen adecuado de todos los que se han observado en la varia-
ble estudiada. A cada uno de estos valores se les llama, de forma genérica, estadístico.
Posiblemente, sin ser conscientes de ello, todos nosotros en algún momento hemos
utilizado algún estadístico para resolver cuestiones cotidianas. Por ejemplo, el producto
interior bruto de un país, la tasa de alfabetización de una población, la esperanza de vida
al nacer o la renta per cápita de los ciudadanos de una comunidad.
De forma general podemos decir que la manera de describir una variable está rela-
cionada con su naturaleza. Es decir, para cada tipo de variable existen estadísticos que
permiten describirlas mejor que otros y, por el contrario, estadísticos que para la varia-
ble estudiada no tienen sentido.
Así, si la variable estudiada es categórica la describiremos mediante su distribución
de frecuencias y, en algunas ocasiones, podremos facilitar algún estadístico para deta-
llarla mejor. Por el contrario, si la variable que estudiamos es cuantitativa, la mera des-
cripción de su distribución de frecuencias aporta generalmente poca información e
incluso, a veces, puede ser un factor de confusión si está mal realizada. Siempre es pre-
ferible detallar uno o varios valores resumen que nos permitan describir las propiedades
de la distribución observada de dicha variable.
De todas formas cabe destacar que la descripción de una variable finalmente debe
realizarse en función de los intereses de la investigación, y aunque lo expuesto un poco
más arriba es lo más habitual, pueden existir otros intereses concretos que determinen
una descripción distinta. A modo de ejemplo, planteemos dos casos distintos:
Introducción Las variables categóricas o las discretas con pocos valores observados se describen, fun-
damentalmente, mediante su distribución de frecuencias. Esto es, se facilitan las fre-
cuencias observadas, relativas (o porcentajes) y acumuladas (o porcentaje acumulado)
para cada uno de los valores que toma la variable. Por ejemplo, la siguiente tabla:
Porcentaje Porcentaje
Frecuencia Porcentaje válido acumulado
Válidos Ladrillo Nº identificativo
7 de1,5
la casa 1,5 1,5
Tierra 187 39,6 Porcentaje39,6 Porcentaje
41,1
Cemento Frecuencia
274 Porcentaje58,1 válido 58,1 acumulado99,2
Válidos Mosaico
397
305 12 100,0 ,4 100,0 ,4 100,0
99,6
Fraguado 1 ,2 ,2 99,8
Piedra 1 ,2 ,2 100,0
Total 472 100,0 100,0
proporciona información acerca del material con que está construido el piso o suelo del
hogar del niño. En la primera columna, busque el valor «Tierra». La interpretación es la
siguiente:
— La segunda columna (Frecuencia) nos informa que en 187 casas el suelo es de tie-
rra.
— En la tercera (Porcentaje), que estas 187 casas representan un 39,6% sobre el total
de las casas registradas en el archivo de datos (187/472).
— La cuarta (Porcentaje válido), presenta el porcentaje en referencia, exclusivamente,
a los registros con valores válidos (sin missings). Ya que en este caso no hay ningún
missing, el porcentaje de la tercera y cuarta columna son idénticos.
— La quinta columna (Porcentaje acumulado) indica que las casas con suelo de tierra
más las casas de los valores anteriormente observados (en este caso, suelos de ladri-
llo) suponen un 41,1% del total (1,5% + 39,6%).
Porcentaje Porcentaje
Frecuencia Porcentaje válido acumulado
Válidos 1 vez mínimo / 3 días 68 14,4 14,5 14,5
1 ó 2 veces / semana 207 43,9 44,0 58,5
1 vez / 15 días 96 20,3 20,4 78,9
1 vez / mes 70 14,8 14,9 93,8
Menos de 1 vez / mes 25 5,3 5,3 99,1
Casi nunca o nunca 4 ,8 ,9 100,0
Total 470 99,6 100,0
Perdidos NS 1 ,2
NC 1 ,2
Total 2 ,4
Total 472 100,0
Es evidente que en el ejemplo del material del piso el porcentaje acumulado no nos
es útil mientras que en el caso de la ingesta de carne sí lo es. Ambas son variables cate-
góricas, entonces ¿qué diferencia existe entre las dos descripciones?
Pues que la primera es una variable categórica nominal y, por tanto, carece de un
orden lógico para sus categorías. Luego la acumulación de porcentajes es arbitraria y, en
consecuencia, el porcentaje acumulado variará según cómo realicemos la ordenación.
En el caso de una variable categórica ordinal, como la ingesta de carne, el porcen-
taje acumulado tiene interés puesto que permite conocer valores tan importantes como
los percentiles. Por ejemplo, podemos determinar que la mediana de esta variable se
sitúa en la categoría «1 o 2 veces / semana» puesto que es el valor que supera el 50%.
Observe que al existir un orden lógico, un valor concreto forzosamente debe prece-
der otro valor concreto (por ejemplo «1 vez / 15 días» siempre precederá «1 vez / mes»)
o, si la ordenación se efectúa en orden inverso, proseguirle (entonces «1 vez / mes» pre-
cederá a «1 vez / 15 días») y, por lo tanto, nunca podemos colocar entre ambos valores
otro diferente (por ejemplo, entre los dos valores mencionados no se puede intercalar «Casi
nunca o nunca» puesto que se rompería la ordenación). La existencia de una ordenación
lógica de magnitud implica que los percentiles siempre tengan sentido, ya que este esta-
dístico, el percentil, se define como aquel valor de la variable por debajo del cual existe
un porcentaje de casos determinado.
Uso profesional del SPSS Materials 129
[{visualización tabla}]
— Si no se especifica nada aparecerán todos los valores con su correspondiente distri-
bución de frecuencias.
— NOTABLE: No aparecerá la tabla de distribución de frecuencias en el fichero de
resultados, solamente los estadísticos que se hayan solicitado.
— LIMIT(n): Señala que las distribuciones de frecuencias con más de n categorías no
se visualicen y solamente se muestren los estadísticos que se hayan indicado de
forma explícita. En general esta opción se utiliza cuando la variable es cuantitativa
discreta y tiene un recorrido de valores muy amplio, por lo que la tabla de frecuen-
cias podría ocupar gran número de páginas y no ser prácticamente interpretable.
[{orden}] ]
— AVALUE**: Visualiza la tabla de distribución de frecuencias en función del valor
de la variable y de manera ascendente si ésta es discreta, o en orden alfabético cre-
ciente si es una variable definida en formato string.
— DVALUE: En función del valor de la variable de manera descendente.
— AFREQ: En función de la frecuencia observada desde el valor o categoría más fre-
cuente al menos frecuente.
130 Materials Albert Navarro; Miguel Martín
{valor representado}:
— FREQ**: Cada barra representa la frecuencia observada en un valor concreto de la
variable estudiada.
— PERCENT: Cada barra representa el porcentaje observado.
[/NTILES=n]: Indique un número n (de 1 a 100) y obtendrá los valores que dividen
la distribución de frecuencias en n intervalos de igual porcentaje.
Estadístico Descripción
COUNT Frecuencia observada
FIRST Primer valor observado (por tanto, depende de la ordenación)
GEOMETRIC Media geométrica
GMEDIAN Mediana calculada mediante el método de agrupar los valores observados en intervalos
HARMONIC Media harmónica
KURT Curtosis
LAST Último valor observado (por tanto, depende de la ordenación)
MAX Valor máximo observado
MAXIMUM Valor máximo observado
MEAN Media
MEDIAN Mediana
MIN Valor mínimo observado
MINIMUM Valor mínimo observado
MODE Moda
NPCT Porcentaje sobre el total de casos
NPCT(var) Igual que la anterior pero dentro de una variable de control, si ésta existe.
RANGE Rango (Valor máximo observado – Valor mínimo observado)
SEKURT Error estándar de la curtosis
SEMEAN Error estándar de la media
SESKEW Error estándar del sesgo
SKEW Sesgo
SPCT Porcentaje sobre la suma de los valores observados
SPCT(var) Igual que la anterior pero dentro de una variable de control, si ésta existe.
STDDEV Desviación estándar
SUM Suma de los valores observados
VARIANCE Varianza
Puede especificarse como opción ALL, con lo que se obtendrían todos los enume-
rados anteriormente, o bien NONE en cuyo caso no se calcularía ninguno.
Comentarios El uso de FREQUENCIES para examinar una variable cuantitativa continua sólo tiene
sentido si se pretende realizar un histograma sencillo o el cálculo de algún estadístico.
Piense que la distribución de frecuencias, además de carecer de sentido, sería suma-
mente larga. Luego si decide usar la instrucción para una variable continua, ejecútela
con la opción NOTABLE. Además existe la posibilidad de analizar la variable agru-
pándola por intervalos a partir de la opción /GROUPED.
FREQ sex mocupa municipi sex_jefe jocupa tip_loc sanit luz refr
tv paredes piso com_coc fr_carne edad4 nut piso2 paredes2 .
Resultados Para cada una de las cinco variable escogidas en las ventanas anteriores, en el fichero
de resultados aparecerán dos recuadros. Veamos su interpretación tomando, como ejem-
plo, la edad de la madre.
Estadísticos
Porcentaje Porcentaje
Frecuencia Porcentaje válido acumulado
Válidos 17 1 ,2 ,2 ,2
18 7 1,5 1,6 1,9
19 11 2,3 2,6 4,5
20 15 3,2 3,5 8,0
21 17 3,6 4,0 12,0
22 23 4,9 5,4 17,4
23 21 4,4 4,9 22,4
24 31 6,6 7,3 29,6
25 27 5,7 6,4 36,0
26 26 5,5 6,1 42,1
27 30 6,4 7,1 49,2
28 26 5,5 6,1 55,3
29 21 4,4 4,9 60,2
30 25 5,3 5,9 66,1
31 9 1,9 2,1 68,2
32 24 5,1 5,6 73,9
33 8 1,7 1,9 75,8
34 9 1,9 2,1 77,9
35 16 3,4 3,8 81,6
36 13 2,8 3,1 84,7
37 11 2,3 2,6 87,3
38 8 1,7 1,9 89,2
39 12 2,5 2,8 92,0
40 11 2,3 2,6 94,6
41 4 ,8 ,9 95,5
42 3 ,6 ,7 96,2
43 2 ,4 ,5 96,7
44 2 ,4 ,5 97,2
45 6 1,3 1,4 98,6
46 1 ,2 ,2 98,8
47 3 ,6 ,7 99,5
49 2 ,4 ,5 100,0
Total 425 90,0 100,0
Perdidos NS 3 ,6
Sistema 44 9,3
Total 47 10,0
Total 472 100,0
En el primer recuadro se nos informa de los estadísticos que hemos solicitado más
algún otro que aparece por defecto, como la información del número de casos válido y
no válidos, media, mediana, asimetría y curtosis con sus respectivos errores estándar.
134 Materials Albert Navarro; Miguel Martín
Introducción Con frecuencia, incluso en el nivel básico descriptivo que se muestra en este libro, inte-
resa estudiar la distribución de frecuencias de una variable categórica en función de otra
de la misma naturaleza. El resultado es una tabla en la que se muestran tantas distribu-
ciones de la primera variable como categorías de la segunda variable y viceversa. Esta
tabla recibe el nombre de tabla de contingencia.
En una estructura tan sencilla como una tabla de contingencia se aporta una gran
cantidad de información que, en múltiples ocasiones, no se analiza en toda su riqueza,
ignorando que en la misma se muestran o están implícitas tres tipos de distribuciones:
Sintaxis Proporciona la distribución conjunta producto del cruce de dos o más variables cate-
góricas. Además, si así se especifica, muestra las distribuciones condicionadas y per-
mite la realización de pruebas y medidas para comprobar la asociación entre las varia-
bles.
Las variables especificadas antes del BY serán las que definirán las filas de la tabla
mientras que las siguientes definirán las columnas.
Si se especifican más opciones BY, las variables que se encuentran en la lista a con-
tinuación implican subanálisis (en las ventanas se les llama capa), es decir, para cada una
de las categorías de estas variables, se describirán las tablas descritas en las relaciones
definidas por el primer BY.
Ejemplo:
Nos describiría la distribución conjunta de los grupos de edad por sexo para cada
uno de los dos municipios.
Diferente resultado se obtendría en el caso de especificar sex BY municipi BY
edad4, acción que describiría la distribución de sexos por municipio para cada grupo
de edad.
[/CELLS=[{valores}]]
Permite especificar qué desea describir en las celdas o casillas generadas por el cruce de
las dos variables que definen la tabla. Puede indicar uno o más valores de los que se
indican a continuación:
[/MISSING={casos missing}]
Elija entre TABLE** e INCLUDE. Es decir, por defecto, excluye del análisis aquellos
valores en los que se desconoce o se ha declarado missing el valor de una o de las dos
variables. En el caso de indicar INCLUDE considera los missings definidos por el usua-
rio.
Uso profesional del SPSS Materials 137
[/WRITE[={X}]]
Permite escribir en un fichero de resultados (de tipo ASCII) la matriz de datos corres-
pondiente al CROSSTABS realizado. En X, elija:
Si le interesa utilizar CELLS o ALL debe definir el fichero en el cual se creará la matriz
resultante. Esto debe hacerlo previamente al CROSSTABS mediante la siguiente ins-
trucción:
[/FORMAT={visualización} {orden}]
Controla cómo se verá la tabla de contingencia en el fichero de resultados.
[/STATISTICS=[CHISQ]] En esta fase del análisis sólo nos puede interesar si existe
algún tipo de asociación entre las dos variables que definen cada tabla de contingencia.
No obstante, el número de estadísticos posibles, así como su forma de cálculo, es muy
amplio. Deberá utilizar sólo aquellas medidas de asociación que respondan a los obje-
tivos y diseño del estudio.
En SPSS coexiste otra forma de definir la instrucción CROSSTABS algo más com-
pleta:
En este caso forzosamente debe indicar VAR[IABLES] donde debe especificar qué
variables quiere analizar. En (mín,máx) indique el rango de valores de cada variable que
deben tenerse en cuenta para cada variable.
nutricional del niño (NUT). Si nos interesa examinar la posible asociación con la ocu-
pación del cabeza de familia haríamos:
Ventanas Las ventanas para efectuar la descripción bivariada de dos variables categóricas se acti-
van mediante la secuencia Analizar ! Estadisticos descriptivos ! Tablas de con-
tingencia, acción cuyo resultado se muestra en la figura 7.2.
Tabla de contingencia Ocupación del cabeza de familia * Cumple el patrón de ingesta proteica.
Cumple el patrón de
ingesta proteica
No Sí Total
Ocupación del cabeza Agropecuario Recuento 120 204 324
de familia % de ocupación del
37,0% 63,0% 100,0%
cabeza de familia
Otros Recuento 34 114 148
% de ocupación del
23,0% 77,0% 100,0%
cabeza de familia
Total Recuento 154 318 472
% de ocupación del
32,6% 67,4% 100,0%
cabeza de familia
Comentarios Si decide realizar algún tipo de contraste mediante las múltiples medidas de asociación
disponibles en la instrucción CROSSTABS, es muy importante que sea consciente de dos
peligros que conlleva el uso irreflexivo de esta instrucción:
El valor promedio de la talla de los niños estudiados es 85,32 cm, mientras que la
mediana es 84 cm. La diferencia es tan sólo de 1,32 cm, pudiéndose considerar ésta
como muy pequeña.
En la siguiente figura se muestra la representación gráfica de la distribución estudiada.
60
50
40
30
20
10
Frecuencia
0
62,0 70,0 78,0 86,0 94,0 102,0 110,0
66,0 74,0 82,0 90,0 98,0 106,0
Descriptivos
Observe cómo, en promedio, los jefes de familia de los hogares registrados supera-
ron 3,8 cursos, forma adecuada de indicar con la precisión de los datos originales un
número igual a 3,79. Sin embargo, la mediana es de 2 cursos superados. La diferencia
es de 1,8 cursos. La media prácticamente duplica la mediana, pudiéndose considerar
esta diferencia considerable. El valor de la asimetría es 1,493, sensiblemente diferente
a cero.
En la figura 7.4 vemos gráficamente la distribución obtenida. Observe cómo la moda
es 0 y los valores se distribuyen claramente de forma asimétrica y con algunos picos, que
corresponden a los cursos que significan un final de etapa escolar según los ciclos esco-
lares oficiales de México: seis es sexto de primaria, nueve corresponde al fin completo
de primaria, el doce significa el último curso de bachillerato, y diecisiete fin de curso uni-
versitario.
140
120
100
80
60
40
Frecuencia
20
0
0 1 2 3 4 5 6 7 8 9 10 11 12 13 15 16 17 20
Pues bien, cuando existe sesgo o asimetría significa que media y mediana son cla-
ramente distintas. En estos casos la media está afectada por casos extremos, es decir,
existen valores alejados del centro de la distribución que provocan que la media se aleje
Uso profesional del SPSS Materials 143
en exceso de éste. Por el contrario, una de las propiedades más destacadas de la mediana
es ser insensible a estos valores y por eso, en situaciones como la planteada, se consi-
dera la mediana mejor estadístico que la media para describir la distribución observada.
Para acompañar la mediana, como medidas de dispersión puede utilizar algunas de
las siguientes: el valor mínimo y máximo, el rango (valor máximo – valor mínimo), los
cuartiles (percentil 25 y 75), algunos percentiles (por ejemplo el percentil 10 y el 90) o
la amplitud intercuartílica (percentil 75 – percentil 25).
En nuestro caso indicaríamos en nuestro informe: la mediana de cursos escolares
superados por el cabeza de familia de los hogares registrados fue de 2 cursos (percentil
25 = 0 y percentil 75 = 6).
En general, note que si el número de casos de un estudio es pequeño, la posibilidad
de que los valores extremos afecten a la media aumenta, puesto que se necesitarán muy
pocos valores alejados del centro para que esto suceda. Por eso cuando el número de
casos es bajo (según algunos autores, menos de 30) directamente se utiliza la mediana
como estadístico y no la media.
Sintaxis Si bien la descripción de una variable cuantitativa puede llevarse a cabo con el proce-
dimiento FREQUENCIES, procurando eliminar la opción de escritura de la tabla de fre-
cuencias, el procedimiento que se describe a continuación es el más simple en el caso
en que sólo se pretenda conocer los estadísticos muestrales.
SINTAXIS
DES[CRIPTIVES] [VARIABLES=] nombre variable [(nombre variable
z)] [nombre variable...]
[/MISSING={casos missing}]
[/SAVE]
[/STATISTICS={estadísticos}]
[/SORT=[{según}] [{(orden)}]]
(nombre variable z): Sólo en el caso en que piense usar la opción /SAVE. Espe-
cifica el nombre de la variable donde se almacenarán las puntuaciones z. Si no asigna
ningún nombre pero indica SAVE, se generará una variable con un nombre parecido a
«Z + nombre original».
/MISSING: Define qué casos, {casos missing}, deben ser excluidos del análisis.
— VARIABLE**: Excluye del análisis los casos que presentan un missing (de sistema
o de usuario) en el valor concreto de la variable estudiada, sin importar el valor que
puedan tomar las demás variables especificadas en la instrucción.
— LISTWISE: Excluye, para el análisis de cada variable especificada en la instruc-
ción, aquellos casos que presentan algún missing en cualquiera de las variables estu-
diadas en el conjunto definido. Es decir, sólo utiliza aquellos casos en que no se
observa ni un solo missing en el conjunto de todas las variables analizadas.
144 Materials Albert Navarro; Miguel Martín
{según}:
— Si no se especifica nada, las variables aparecerán en el fichero de resultados con el
orden en que las hemos especificado en la instrucción.
— NAME: Se ordenarán alfabéticamente.
— Señalando cualquier estadístico utilizado en la opción STATISTICS, obtendrá una
salida ordenada en función del valor del estadístico especificado.
{orden}:
— A**: De manera ascendente.
— D: Descendente.
Ventanas La ventana de aplicación, figura 7.5, se abre al actuar sobre la secuencia Analizar !
Estadísticos descriptivos ! Descriptivos...
Uso profesional del SPSS Materials 145
Comentarios Una variable alfanumérica nunca puede ser analizada mediante un DESCRIPTIVES.
Observe cómo en la ventana de la instrucción, en el recuadro donde se ubica el listado
de variables que se pueden seleccionar, no aparece ninguna alfanumérica.
Resultados Una vez ejecutada la instrucción, en el fichero de resultados, aparecerá una tabla con
todos los estadísticos deseados para cada una de las variables. Además, por defecto, se
especifica el total de casos válidos utilizados para calcular dichos estadísticos para cada
una de las variables.
146 Materials Albert Navarro; Miguel Martín
Estadísticos descriptivos
Sintaxis En la primera de las opciones de análisis el objetivo fundamental es describir los esta-
dísticos muestrales mínimos para cada una de las submuestras indicadas. Sin embargo,
debemos volver a insistir en las precauciones que el analista debe tomar al utilizar las
opciones de contraste de hipótesis que le ofrece esta instrucción.
/CELLS: Puede especificar los estadísticos deseados para cada subgrupo de casos:
MEAN**, COUNT**, STDDEV**, MEDIAN, GMEDIAN, SEMEAN, SUM,MIN, MAX,
RANGE, VARIANCE, KURT, SEKURT, SKEW, SESKEW, FIRST, LAST, NPCT,
SPCT, NPCT(var), SPCT(var), HARMONIC, GEOMETRIC.
Vea en la tabla 7.8 el significado de cada una de estas opciones. Como en casos ante-
riores, existe también la opción de remitirse a la opción por defecto o bien indicar el cál-
culo de todos los índices explicitando ALL.
/MISSING: Determina los casos excluidos de análisis. Debe indicarse alguna de las
siguientes opciones:
Uso profesional del SPSS Materials 147
— TABLE: Excluye del análisis aquellos casos que presenten un missing (de usuario
o de sistema) en culaquiera de las variables involucradas en un proceso de descrip-
ción.
— INCLUDE: Trata los valores missing de usuario, de todas las variables especifica-
das en la instrucción, como valores válidos.
— DEPENDENT: Si la variable cuantitativa presenta algún valor definido como missing,
éste es apartado del análisis. No obstante, los valores missing de la variable de con-
trol se consideran como una categoría más y no se ignoran. En otras palabras, ana-
liza la variable cuantitativa también para aquellos casos indefinidos de la variable cate-
górica.
Ventanas La ejecución por menús desplegables, figura 7.6, se efectúa activando la secuencia: Ana-
lizar ! Comparar medias ! Medias :
Figura 7.6. Menús desplegables correspondientes a la descripción de una variable cuantitativa por
grupos generados por una variable categórica o independiente.
148 Materials Albert Navarro; Miguel Martín
Comentarios 1. Con la instrucción MEANS puede realizar la descripción univariada de una varia-
ble simplemente al no especificar ningún BY.
2. Si la variable cuantitativa presenta missings de usuario codificados mediante un valor
determinado (vea capítulo 4), utilice MISSING = DEPENDENT. Si utilizara MIS-
SING = INCLUDE este valor formaría parte del análisis y sesgaría los resultados.
Informe
Cursos Nº de
Cursos Edad del escolares personas por
Edad de escolares cabeza de superados habitación
Cumple el patrón de la madre superados familia (en por el cabeza destinada a
ingesta proteica? (en años) por la madre años) de familia dormir
No Media 29,31 2,31 38,90 2,68 5,458
N 134 150 153 154 154
Desv. típ. 6,80 2,68 13,40 3,11 2,153
Error típ. de la media ,59 ,22 1,08 ,25 ,173
Sí Media 28,68 3,97 37,61 4,32 5,135
N 291 312 317 318 318
Desv. típ. 6,67 4,10 12,87 4,56 2,310
Error típ. de la media ,39 ,23 ,72 ,26 ,130
Total Media 28,88 3,43 38,03 3,79 5,241
N 425 462 470 472 472
Desv. típ. 6,71 3,78 13,05 4,21 2,263
Error típ. de la media ,33 ,18 ,60 ,19 ,104
Se genera una tabla con la información solicitada para cada una de las variables
especificadas. A modo de ejemplo, para realizar la interpretación, centrémonos en la
última variable. Los resultados obtenidos muestran que la media de personas por habi-
tación destinada para dormir es, ligeramente, superior en los hogares con niños mal nutri-
dos respecto a los hogares de niños bien nutridos: 5,46 frente a 5,14 personas por cuarto.
Si quiere ser más preciso podría calcular el intervalo de confianza para las medias. Para
un nivel de confianza del 95% haríamos:
— la media de HACINAM para los hogares con niños mal nutridos es:
5,46 personas / cuarto; (IC(95%) = 5,12-5,80));
— mientras que para los hogares sin niños mal nutridos:
5,14 personas / cuarto; (IC(95%) = 4,88-5,39)).
Observe que si bien ambas medias son ligeramente distintas, los intervalos de con-
fianza calculados se solapan. Cuando esto sucede se puede afirmar que, estadísticamente,
no existe una diferencia significativa.
La interpretación de las demás variables se efectuaría de la misma forma.
Uso profesional del SPSS Materials 149
Comentarios ¡Atención! Que una diferencia no sea estadísticamente significativa no implica que no
pueda ser importante para el investigador. La significación no depende exclusivamente
de criterios estadísticos (dependientes, además, de cuestiones como el número de indi-
viduos analizados, etc.), sino también de la propia importancia sustantiva que el inves-
tigador observe en esa diferencia.
Sintaxis La otra instrucción que permite la descriptiva de una variable cuantitativa en función de
las categorías de una o varias variables categóricas, se describe a continuación:
BY: especifique la variable o variables para los valores de las cuales quiere realizar la
descripción de la variable cuantitativa. También puede enlazar varios BY, con lo que se
describirá la variable cuantitativa para el cruce de los factores.
Por ejemplo, si hiciéramos:
obtendríamos una sola tabla con la descripción de las proteínas totales para ocho situa-
ciones distintas. Estas situaciones corresponderían a todas las posibles combinaciones
entre los valores de ambos factores: [12-24)-Villaflores, [12-24)-Jaltenango, ... , [48-
60)-Jaltenango.
/COMPARE {tipo}: Define qué tipo de comparación se efectúa en los gráficos soli-
citados. Debe indicarse alguna de las opciones siguientes:
140 100
11
120
80
38 234
236
289
159
100 296
3
60
63 172
80 162
111
32
72 107
137
129
109
60 40
132 269
123
110 219
222
231
260
40 227
20
20
0
0
-20 -20
N= 151 159 88 74 N= 151 159 88 74
140
11
120
38
289
100 53
80
111 234
236
32
72 107
137 159
296
129
60 109
63 132 172 269
162 219
123
110 222
231
260
40 227
20
Proteínas animales
consumidas el día anterior
0
Proteínas vegetales
–20 consumidas el día anterior
N= 151 151 159 159 88 88 74 74
— TOTAL**: Se visualizan.
— NOTOTAL: No se visualizan.
Uso profesional del SPSS Materials 151
/ID: Si en esta opción se especifica una variable, sus valores servirán como etiqueta
de los casos en determinados gráficos. Si no se señala ninguna se utilizará el número de
caso en la base de datos, es decir, la posición del caso dentro del conjunto de datos.
— NPPLOT: Realiza dos gráficos para comprobar la normalidad de una variable. Ade-
más proporciona los estadísticos Kolmogorov-Smirnov y Shapiro-Wilk con la misma
finalidad. Shapiro-Wilk sólo se muestra para datos con 50 o menos observaciones.
— HISTOGRAM: Dibuja el histograma solicitado.
— ALL: Imprime todos los gráficos posibles.
— NONE: No se generan gráficos en el fichero de resultados.
/CINTERVAL: Permite modificar el nivel del intervalo de confianza. Por defecto se cal-
cula al 95%. Puede elegir un nivel de entre el 50 y el 99,99%.
Uso profesional del SPSS Materials 153
Ventanas Con el fin de efectuar este análisis descriptivo las ventanas se activan al incidir en los
pasos de la secuencia: Analizar ! Estadísticos descriptivos ! Explorar:
154 Materials Albert Navarro; Miguel Martín
Comentarios 1. Con la instrucción EXAMINE puede realizar la descripción univariada de una varia-
ble simplemente al no especificar ningún BY.
2. La instrucción EXAMINE es muy interesante para la descripción de variables cuan-
titativas (a nivel uni y bivariado). Esto es debido a que proporciona, además de esta-
dísticos que también facilitan otras instrucciones, el intervalo de confianza para la
media con la posibilidad de modificar el nivel de confianza y otros estadísticos com-
plementarios como la media recortada al 5%.
3. Aunque su uso es muy interesante, también es muy peligroso cuando en una misma
instrucción ejecutamos la descripción de más de una variable cuantitativa. Observe
que, por defecto, los casos que presenten algún missing en cualquiera de las varia-
bles cuantitativas será eliminado de la descripción no sólo de esa, sino de todas las
variables especificadas en la instrucción (MISSING = LISTWISE). El desconocimiento
de este hecho, por tanto, puede provocar que no se tengan en cuenta casos que debe-
rían formar parte de la descripción.
4. Puede describir una variable cuantitativa por el cruce, como máximo, de ocho fac-
tores (es decir, puede usar como mucho 8 BY). Si especifica un número más ele-
vado la instrucción no se ejecutará.
5. La utilización de más de un BY y la consiguiente descripción en cada grupo gene-
rado por varias variables categóricas solo se puede lograr mediante la sintaxis. A
través de las ventanas no puede especificarse.
Resultados En la tabla 7.15 se muestra el resultado de EXAMINE para la variable jescola para los
dos grupos de niños, nutridos y desnutridos.
Uso profesional del SPSS Materials 155
Descriptivos
Para ambos grupos se observa una desviación típica grande, comparada con la media.
También se aprecia claramente la existencia de asimetría. Esto nos indica que la mediana
será mejor estadístico de tendencia central para explicar los datos observados.
Así, vemos que los cabeza de familia de niños bien nutridos tienen tres cursos esco-
lares superados mientras que los de los niños mal nutridos sólo dos. Dicha diferencia
puede motivar a pensar que la escolaridad del cabeza de familia puede asociarse al estado
nutricional del niño.
Si ha seguido el orden lógico del libro, en este punto Ud. habrá evaluado el posible efecto
sobre la desnutrición de todas las variables presentes en el archivo NUT_FIN.SAV. Posi-
blemente también habrá apreciado que la valoración de la asociación de ciertas variables
con la adecuación alimentaria podría realizarse de forma más ajustada a sus intereses o,
al menos, de otra manera.
Por ejemplo, al igual que hicimos anteriormente con las variables piso y paredes,
en las que agrupamos categorías, céntrese ahora en la variable frecuencia de ingesta de
carne. Tiene seis categorías. Imagine que le interesase describirla sólo con dos. ¿Qué punto
de corte utilizaría para crear esas dos categorías? Si examina los resultados apreciará
que una posibilidad sería usar las siguientes dos: 1 «1 vez o más / 15 días», 2 «menos
de 1 vez / 15 días». ¿Por qué en este punto? Fíjese que hasta la categoría «1 vez / 15
días» el porcentaje de desnutrición está por debajo de aproximadamente el 30% mien-
tras que a partir de «1 vez / mes» dicho porcentaje siempre supera el 40%.
156 Materials Albert Navarro; Miguel Martín
Cree una nueva variable utilizando este criterio y describa su distribución conjunta
con la adecuación alimentaria.
Otra posibilidad es categorizar las variables cuantitativas que anteriormente hemos
descrito mediante algún estadístico de tendencia central y de dispersión. Esta posibili-
dad es interesante porque a veces es difícil interpretar la información derivada, por ejem-
plo, de la comparación entre dos medias.
Anteriormente comparamos el número medio de personas por habitación destinada
a dormir entre los hogares con niños bien y malnutridos. La diferencia entre tales medias
(5,46 en hogares con niños malnutridos y 5,14 en hogares con niños bien nutridos) fue
de 0,32 personas/habitación. Realmente es difícil valorar la intensidad de esta diferen-
cia. ¿Es mucho o es poco? En fin, no desprecie la posibilidad de categorizar esta varia-
ble y observar su distribución condicionada respecto a la adecuación alimentaria. El
único problema reside en la definición de las categorías a utilizar. Habitualmente dicho
problema se soluciona buscando criterios externos, bien sea mediante literatura sobre el
tema o mediante la decisión del investigador del estudio. Aún así, si estos criterios no
existen, cabe la posibilidad de utilizar algún percentil de la distribución observada para
realizar una recodificación que nos aporte información.
Por ejemplo, en el caso de hacinam, le proponemos que recodifique dicha variable
en otra a partir de la mediana obtenida:
RECODE
hacinam (Lowest thru 4.99=1) (5 thru Highest=2) INTO hac .
EXECUTE .
FOR hac (F1.0) .
VAR LAB hac ‘Nº de personas / habitación destinada a dormir’ .
VAL LAB hac 1 ‘< 5’ 2 ‘>= 5’ .
VAR LEV hac (NOMINAL) .
Sintaxis Las instrucciones más sencillas para generar tablas son las que se muestran, en versión
simplificada, a continuación.
Puede entenderse con facilidad que genera un resumen de información de las varia-
bles que se indican en la lista de variables en las diferentes casillas de una o varias
tablas generadas por el cruce de las categorías de las variables definidas en las dos lis-
tas de variables de cada BY.
El título y el pie de página de este resumen son opcionales. En ninguno de los dos
casos TITLE o FOOTNOTE, el texto puede superar los 255 caracteres. Siempre debe-
rán constar entre comillas.
MEANS, pudiéndose solicitar todos ellos con la opción ALL. Si no se indica nada por
defecto resume en cada casilla o celda de la tabla generada el número de casos que per-
tenecen a la misma.
Comentarios 1. El analista debe considerar con cautela ciertas opciones de la subinstrucción FOR-
MAT, ya que los valores u opciones por defecto no son iguales al trabajar con ven-
tanas. Así, por defecto, en Sintaxis, el resumen se efectúa con todos los datos mien-
tras que, por Ventanas, tal y como verá más adelante, sólo se efectúa por defecto el
resumen de los 100 primeros casos.
2. De la misma forma, la ejecución por sintaxis presupone que el resumen no imprime
la información de cada caso, sino precisamente sólo el resumen. La ejecución por ven-
tanas muestra la relación de los casos de las categorías generadas en el análisis.
Una instrucción más simple para describir variables continuas en función de una
lista de variables categóricas es la siguiente:
En este caso, en la primera lista de variables se indican las variables continuas que
se quieren analizar en función de las que se precisan a continuación de BY, debiendo ser
estas últimas categóricas. Sin embargo, puede apreciarse la equivalencia con la anterior
instrucción. Los cambios se observan en la forma de expresar los resultados, pues mien-
tras en SUMMARIZE la expresión de los resultados es de informe resumen, en OLAP
CUBES los resultados se muestran para cada estrato analizado por separado.
Comentarios 1. En la versión 10.0 del programa SPSS se produce un pequeño error al ejecutarse la
instrucción. En concreto, si se está trabajando con la ventana de resultados Visor
Borrador SPSS, se describen todas las categorías descritas en la tabla generada por
la instrucción BY Lista de Variables BY Lista de variables..., así como de todas
las tablas marginales asociadas a la posible tabla multidimensional. No ocurre lo
mismo si se trabaja con la opción de escribir los resultados en la ventana Visor SPSS,
en que sólo se presentan las tablas de cada una de las variables colapsando las demás.
2. Este fenómeno se repite aunque se trabaje ejecutando la instrucción por ventanas.
Ventanas En este caso, resumir información en forma de informe o de tablas múltiples, la acción
se puede activar de diversas maneras:
Uso profesional del SPSS Materials 159
SUMMARIZE
/TABLES=tall_cms peso_kg BY sex BY edad4
/TITLE=’Talla y peso en función del sexo y el grupo de edad’ .
Puede visualizar como siempre la sintaxis efectuando una de las dos acciones que
se indican y en vez de indicar Aceptar, lo cual ejecuta la acción, activando la tecla de Pegar
y observando el texto en la ventana de Sintaxis.
Resultados Los resultados obtenidos al aplicar el contenido de las ventanas indicadas, como si se eje-
cuta la sintaxis asociada a las mismas, conducen a los siguientes resultados:
Uso profesional del SPSS Materials 163
Tabla 7.20. Resultado de la ventana Tablas básicas para variables por separado
Ahora imagine que, mediante una única tabla, desea presentar todos los resultados
que ha obtenido con las instrucciones CROSSTABS que cruzaban cada una de las varia-
bles categóricas con la adecuación alimentaria. Pues bien, mediante la activación de las
ventanas de Tablas básicas (vea la figura 7.14) seleccione todas las variables que crea
oportunas para describirlas conjuntamente con nut y, además, en vez de elegir la opción
«Todas las combinaciones (anidadas)» elija «Cada una por separado (apiladas)». De
esta forma obtendrá una tabla resumen con la descriptiva bivariada de cada variable
categórica con la adecuación alimentaria. Puede observarlo en la tabla 7.20.
Representación gráfica
Introducción Si bien una tabla de resumen numérico casi siempre aporta más información que una
representación gráfica, hay ocasiones en las que el uso de un gráfico es útil para resal-
tar una descripción de los datos sencilla y amena para el receptor de la información.
La instrucción principal para realizar gráficos con el SPSS es la instrucción GRAPH.
Como siempre que se construye un gráfico, las instrucciones de sintaxis, en cualquier sis-
tema o paquete estadístico, acostumbran a ser muy numerosas, aumentando cuanto mayor
es la calidad del gráfico que se quiera presentar.
Sintaxis Se presenta sólo la sintaxis para que el gráfico quede presentable. Para obtener una visión
mucho más completa consulte los manuales.
GRAPH
[/TITLE=’línea 1’ [’línea 2’]]
[/SUBTITLE=’línea 1’]
[/FOOTNOTE=’línea 1’ [’línea 2’]]
{/BAR [{(Tipo)}]=función/variable}
{/LINE [{(Tipo)}]= función/variable}
{/PIE }
{/HISTOGRAM [(NORMAL)]=var }
{/SCATTERPLOT[{(bi/tridimensional)}]=variable especificación}
{/ERRORBAR[{(CI[{95}])}]={var [var var ...][BY var]} }
[/MISSING=[{casos missing}]]
/TITLE: Permite insertar un título para el gráfico. Puede especificar hasta dos líneas para
éste.
/SUBTITLE: Especifica un subtítulo.
/FOOTNOTE: Especifica una nota al pie del gráfico.
/BAR: Crea un diagrama de barras. Este tipo de gráfico se utiliza habitualmente para
describir la distribución de frecuencias para una variable categórica. También puede ser
usada para representar variables discretas con relativamente pocos valores observados.
Uso profesional del SPSS Materials 165
GRAPH
/BAR(SIMPLE)=COUNT BY edad4
/TITLE= ‘Distribución de los niños estudiados según edad.’.
160
140
120
100
80
Frecuencia
60
[12-24) [24-36) [36-48) [48-60)
GRAPH
/BAR(GROUPED)=PCT BY mescola BY tip_loc
/TITLE= ‘Distribución de los años de estudio’ ‘de la madre
según el tipo de localidad.’.
40
30
20
10
Tipo de localidad
Porcentaje
Urbana
0 Rural
0 1 2 3 4 5 6 7 8 9 10 12 13 15 17
GRAPH
/LINE(SIMPLE)=MEAN(peso_kg) BY edadmes
/TITLE= ‘Peso del niño según su edad.’.
20
18
16
Media del peso del niño (en kilos)
14
12
10
8
12 15 18 21 24 27 30 33 36 39 42 45 48 51 54 57
GRAPH
/PIE=PCT BY sanit
/TITLE= ‘Tipo de baño de las casas estudiadas.’.
Excusado
Letrina, hoyo
60
50
40
30
20
0 N = 472,00
5,
15
25
35
45
55
65
75
85
95
10
11
12
0
5
,0
,0
,0
,0
,0
,0
,0
,0
,0
5,
5,
,0
0
GRAPH
/SCATTERPLOT(BIVAR)=peso_kg WITH tall_cms
/TITLE= ‘Relación entre el peso y la talla de los niños estu-
diados.’.
110
100
90
Talla del nño (en centímetros)
80
70
60
0 10 20 30
GRAPH
/SCATTERPLOT(XYZ)=peso_kg WITH tall_cms WITH protot
/TITLE= ‘Total de proteínas consumidas según peso y talla.’.
120
110
100
90
Talla (cms)
80
70
60
30 120 140
20 100
80
60
Peso (kgs)
10 20 40
0 Total proteínas consumidas
GRAPH
/ERRORBAR( CI 95 )=protot BY edad4
/TITLE= ‘Total de proteínas consumidas según la edad del
niño.’ .
Uso profesional del SPSS Materials 169
Figura 7.22. Intervalos de confianza de las medias de la variable total de proteínas en los distintos gru-
pos de edad de los niños estudiados.
42
40
38
36
32
30
28
N= 151 159 88 74
/MISSING: Determina qué casos serán excluidos del análisis y por tanto no estarán
presentes en el gráfico. Debe elegir una opción de cada pareja:
Ventanas Tal y como se muestra en la siguiente figura 7.23, al activar el menú de Gráficos de la
barra de herramientas se ofrece no sólo la gama de gráficos enunciada sino muchos más.
Recomendamos, de todas formas, la lectura detallada del manual de ayuda para poder
elaborar sin demasiada pérdida de tiempo el gráfico más adecuado.
170 Materials Albert Navarro; Miguel Martín
Figura 7.23. Menú desplegable que muestra las diferentes opciones gráficas del programa.
Uso profesional del SPSS Materials 171
*****************************************************************.
* CONTROL DE CALIDAD *.
*****************************************************************.
GET FILE=’C:\Spss\Chiapas\Nutricio.sav ‘.
COMPUTE filtro=(sexo=’ ‘) .
FILTER BY filtro .
EXECUTE .
FREQ ncuest .
COMPUTE filtro=(ed_madre=95) .
FILTER BY filtro .
EXECUTE .
FREQ ncuest .
COMPUTE filtro=(mocupa=4) .
FILTER BY filtro .
EXECUTE .
FREQ ncuest .
COMPUTE filtro=(ed_jefe=510) .
FILTER BY filtro .
FREQ ncuest .
172 Materials Albert Navarro; Miguel Martín
FILTER OFF .
* Corregimos errores *
RECODE
ed_madre (95=SYSMIS) .
EXECUTE .
RECODE
mocupa (4=SYSMIS) .
EXECUTE .
RECODE
ed_jefe (510=SYSMIS) .
EXECUTE .
COMPUTE sexo=LTRIM(UPCAS(sexo)) .
EXECUTE .
RECODE
sexo (» »=»MASCULINO») (»FEMENU9»=»FEMENINO») (»FEMENINP»=»FEME-
NINO») (»MASCLINO»=»MASCULINO») .
EXECUTE .
RECODE sexo
(»MASCULINO»=1) (»FEMENINO»=2) INTO sex .
EXECUTE.
VAR LEV sex (NOMINAL).
VAL LAB sex 1 ‘Masculino’ 2 ‘Femenino’ .
*****************************************************************.
* DESCRIPCIÓN DE LOS DATOS *.
*****************************************************************.
GET FILE=’C:\Spss\Chiapas\Nut_fin.sav’ .
FREQ mocupa municipi tip_loc sanit luz refr tv paredes piso com_coc
segsoc sex_jefe jocupa fr_carne edad4 nut piso2 paredes2 .
* Variables continuas *.
CROSSTABS
mocupa tip_loc sanit luz refr tv paredes piso com_coc segsoc
sex_jefe jocupa fr_carne sex piso2 paredes2 BY nut
/CELLS= COUNT ROW .
RECODE fr_carne
(1 thru 3=1) (4 thru hi=2) INTO carne2 .
EXECUTE .
FOR carne2 (F1.0) .
VAR LAB carne2 ‘Frecuencia de ingesta de carne’ .
VAL LAB carne2 1 ‘1 vez o más / 15 días’ 2 ‘Menos de una vez /
15 días’ .
VAR LEV carne2 (NOMINAL) .
RECODE
hacinam (Lowest thru 4.99=1) (5 thru Highest=2) INTO hac .
EXECUTE .
FOR hac (F1.0) .
VAR LAB hac ‘Nº de personas / habitación destinada a dormir’ .
VAL LAB hac 1 ‘< 5’ 2 ‘>= 5’ .
VAR LEV hac (NOMINAL) .
RECODE cse (0 thru 2=1) (3 thru 5=2) (6 thru Hi=3) INTO cse3.
EXECUTE .
FOR cse3 (F1.0) .
VAR LAB cse3 ‘Condición socioeconómica de la familia en 3 gru-
pos’ .
VAL LAB cse3 1 ‘Alta’ 2 ‘Media’ 3 ‘Baja’ .
VAR LEV cse3 (ORDINAL) .
CROSSTABS
mestud jestud carne2 hac cse3 BY nut
/CELLS= COUNT ROW .
Uso profesional del SPSS Materials 175
Introducción A medida que un analista de datos adquiere experiencia en el trabajo, observa que muchas
de las acciones que realiza en un estudio son iguales o casi repetidas de las que ha rea-
lizado en otros estudios. Además, cada persona sistematiza esas acciones de una forma
particular en función de su forma de desarrollar el análisis. Así, escribir cada vez una misma
sintaxis o ejecutar las mismas ventanas cambiando solamente las variables objeto de
estudio implica un incremento muy considerable de tiempo. Una opción es tener cada
una de esas instrucciones almacenadas en un fichero de sintaxis y variar exclusivamente
el nombre de las variables mediante el Editor, una vez abierto el programa, ya almace-
nado, en la ventana de Sintaxis.
Otra opción, mucho más interesante, consiste en la creación de macros o programas
de uso frecuente, que permiten el trabajo sistematizado de determinadas acciones. Por
ejemplo, ¿por qué escribir (o reescribir) constantemente una instrucción CROSSTABS,
que muestre la distribución conjunta y una de las condicionadas, si puedo obtenerlo
mediante una sola línea de texto en que especifique exclusivamente las variables sobre
las cuales realizar dicha descripción?
En este capítulo vamos a introducir el concepto de macro o programa de uso fre-
cuente y cómo se trabaja con él.
Debemos indicar al lector, no obstante, que las posibilidades de creación de progra-
mas de uso frecuente o macros es muy amplia. Aquí, de forma introductoria, le mostra-
mos la filosofía de dichos programas, cómo se crean y ejecutan. Al lector interesado en
profundizar en el tema, le aconsejamos que lo haga mediante los manuales del programa.
Sintaxis La instrucción que permite definir acciones de uso frecuente, se describe a continua-
ción:
DEFINE nombre
([{argumento=} {!TOKENS (n) }]
{!POSITIONAL= } {!CHAREND(’char’)}
[/{nombre argumento=} ...])
{!POSITIONAL= }
cuerpo de la macro
!ENDDEFINE
DEFINE nombre: Es la instrucción general que define un programa macro. Todas las
macros deben empezar con un DEFINE. A continuación de la indicación de inicio de una
macro (DEFINE) debemos especificar el nombre que le daremos a esta instrucción de
ahora en adelante.
Si revisa las instrucciones que hemos descrito en este libro, en especial en las de
estadística descriptiva, observará que en la mayoría de ellas las variables implicadas
176 Materials Albert Navarro; Miguel Martín
están agrupadas en dos conjuntos que se relacionan entre sí. En general la relación se indica
mediante la palabra o instrucción BY. En una instrucción macro esta información se
indica con la subinstrucción nombre del argumento o con la correspondiente POSI-
TIONAL.
— !TOKENS (n): Asignando un valor a n, entre paréntesis, se indica que ese argu-
mento o POSITION está constituido por n variables, las cuales se indicarán en la
instrucción de sintaxis a ejecutar.
— !CHAREND (’char’): Al especificar un carácter determinado, ‘char’ entre los
paréntesis, se está indicando el final de la lista de variables que pertenecen a ese
argumento o position.
Como puede ver, ambas opciones tienen como objetivo exclusivamente especificar
las variables que corresponden a cada argumento.
A continuación vamos a crear una macro que nos permita sistematizar la descripción
de dos variables categóricas conjuntamente. Tal y como vimos en el capítulo 7, al exis-
Uso profesional del SPSS Materials 177
tir una variable de especial interés o respuesta, presentaremos dicha descripción mediante
la distribución conjunta de las dos variables y una de las distribuciones condicionadas.
Además, antes de esto, listaremos las distribuciones de frecuencias de todas las varia-
bles que participen en el análisis.
Pues bien, la definición de esta macro podría ser:
Observaciones:
— Cruce es el nombre con el que a partir de ahora llamaremos esta macro a partir de
ahora. Posee dos conjuntos de variables definidos por argumentos de nombres int y
exp.
El objetivo de la macro es el de cruzar y describir las variables que se indiquen en
cada argumento .
— Int es el argumento que hace referencia a la variable respuesta o de interés. El nom-
bre del argumento int es totalmente arbitrario. Ya que en nuestro estudio sólo tene-
mos una, la adecuación alimentaria, especificamos !TOKENS(1).
— Exp permite señalar las variables explicativas. Este nombre, al igual que en el caso
anterior, también es arbitrario. En el estudio que realizamos hay muchas. Suponga-
mos que en un sola llamada a la macro deseemos realizar la descripción para, como
máximo, veinte variables. De ahí: !TOKENS(20).
— El cuerpo de la macro está formado por una instrucción FREQUENCIES y un
CROSSTABS. En ellas se especifican los argumentos definidos en DEFINE.
Una vez definida una macro, como ya hemos dicho, su activación se realiza mediante
su ejecución en el fichero de sintaxis (selección con el cursor del texto definitorio de la
macro y pulsando la tecla de la barra de herramientas del Editor de sintaxis), tal y
como se muestra en la figura 8.1.
178 Materials Albert Navarro; Miguel Martín
Una vez ejecutado lo anterior, vaya al fichero de resultados y observe lo que aparece.
A continuación o en cualquier otro momento podríamos ejecutar de nuevo la macro
pero, obviamente, con otras variables en los argumentos. Por ejemplo:
Uso profesional del SPSS Materials 179
En este caso el análisis requerido sería el mismo que en el caso anterior pero refe-
rido a la variable municipi frente a sex, edad4 o jestud.
Compare los resultados obtenidos con esta segunda macro con los obtenidos ante-
riormente.
Comentarios 1. Note que al invocar las macros en el programa, después del nombre que la identi-
fica, los argumentos no van precedidos por el signo de admiración.
2. Observe que ambas macros (cruce y cruce2) ejecutan las mismas acciones: en el
fichero de resultados aparecen las distribuciones de frecuencias de nut, municipi,
mocupa y mestud y posteriormente se nos presentan los cruces de NUT con las otras
variables.
3. Entre ambas macros, la única diferencia es cómo se definen los argumentos: si se hace
según un nombre especificado por el propio usuario o según el orden establecido en
la definición de la macro.
Otra macro interesante podría ser la que permitiera efectuar la descripción de una varia-
ble cuantitativa según otra categórica. Podría tener esta forma:
Y la llamaríamos así:
bles. En la siguiente macro, por ejemplo, se crea una variable que será el número de días
transcurridos entre dos fechas, se etiquetará la nueva variable y se realizará una des-
cripción de la misma. Por ejemplo, con las fechas de nacimiento y entrevista presentes
en los archivos NIN_VILL.SAV y NIN_JAL.SAV (o NINHOS.SAV). Observe:
Comentarios Una opción interesante para rentabilizar el tiempo en análisis que son repetitivos con-
siste en la creación de un archivo de macros. Éste no es más que un fichero de instruc-
ciones SPSS normal, en el cual hay todas las macros que Ud. desee y que, al ejecutarlo,
carga todas las macros a la vez de forma que puede utilizar cualquiera de las que con-
tiene. Con esto, cuando cree una nueva macro podrá añadirla al citado archivo sin más,
sabiendo que en él tiene almacenadas todas las macros que utiliza y no dispersas por el
disco.
Por ejemplo, si quisiéramos crear un archivo de macros con las que hemos especi-
ficado hasta ahora, tan sólo deberíamos abrir el Editor de sintaxis, y detallar cada macro
a continuación de la anterior, sin más:
INC ‘C:\SPSS\HABITUAL\MACROS.SPS’ .
De esta forma las macros cruce, cruce2, conbycat y dias ya están cargadas y dispo-
nibles para ser utilizadas, en cualquier momento mientras dure la sesión, tal y como
explicamos anteriormente.
Uso profesional del SPSS Materials 183
Capítulo 9. Autoevaluación
Introducción
El lector que haya seguido sistemáticamente el texto de este libro está en disposición de
efectuar todas las manipulaciones de archivos o ficheros que le permite el SPSS de una
forma rigurosa y profesional. No obstante, es preciso comprobar hasta qué punto el nivel
de conocimientos adquiridos le permite afrontar la manipulación de nuevos datos y efec-
tuar los análisis descriptivos de los mismos sin un guión explícito de los pasos necesa-
rios.
Por esta razón, en este capítulo se presenta un nuevo ejemplo basado también en un
estudio real realizado en Brasil, en el contexto del programa de internado rural del currí-
culo de Medicina de la Universidad Federal de Minas Gerais. (UFMG)
Dicho estudio fue realizado por Horacio Pereira Faria, profesor del Departamento de
Salud Pública y Ocupacional de la Facultad de Medicina de la UFMG entre los años
1997 y 2000.
El trabajo que vamos a analizar parcialmente justificaba el estudio en base a la nece-
sidad de planificar la prestación farmacéutica por dos motivos: en primer lugar, la insu-
ficiencia de recursos del sistema público de salud, que, en el contexto en que se efectúa
el trabajo, es responsabilidad del municipio; y, en segundo lugar, por el hecho de que un
porcentaje significativo de la población no dispone de recursos para la compra de los medi-
camentos no cubiertos por el sistema público.
Bajo estas dos premisas se pretende conocer la distribución de la tenencia de medi-
camentos por las familias de Ibiá, municipio del estado de Minas Gerais en Brasil, y la
naturaleza de los factores que pueden influir en dicha distribución.
De forma genérica, se pretende describir si los factores de naturaleza socioeconómica
condicionan la tenencia de medicamentos y si ese condicionamiento es equivalente o
similar al que podría considerarse a priori más lógico, cuál es el que genera el hecho de
la presencia o no de personas enfermas en la familia.
En el ejemplo que vamos a enunciar se pretenderá llegar exclusivamente a este
aspecto descriptivo, si bien el trabajo original efectúa otros tipos de análisis, en base a
modelos logísticos, para cuantificar esas posibles relaciones.1
1. Horacio Pereira de Faria, Análisis de la distribución de fármacos en familias de la zona urbana del municipio de
Ibiá-MG-Brasil mediante modelos logísticos, Cerdanyola del Vallès: Universitat Autònoma de Barcelona, 2001.
[Tesina.]
184 Materials Albert Navarro; Miguel Martín
En el momento del estudio Ibiá contaba con una población alrededor de 20.000 per-
sonas, de las cuales cerca del 90% vivían en el área urbana. El municipio presentaba
una economía basada en la agricultura, de modo particular en el cultivo de la patata.
La región urbana del municipio estaba dividida por la administración municipal en
2 áreas de salud según criterios socioeconómicos y de accesibilidad a los servicios de
salud. Cada área de salud, a su vez, estaba dividida en microáreas según criterios geo-
gráficos y operacionales (área de trabajo de los Agentes Comunitarios de Salud - ACS).
La encuesta se llevó a cabo en el segundo semestre de 1997. El cuestionario fue apli-
cado por los agentes comunitarios de salud, los cuales siguieron un curso de adiestramiento
específico para esta finalidad.
Fueron seleccionadas de forma aleatoria 5 microáreas, siendo 2 del área A y 3 del
área B, que tenían respectivamente 10 y 14 microáreas. Esto representó un total de 1025
familias y un 27% del total de los hogares catastrados, siendo en todos los casos la uni-
dad básica de análisis el hogar, que, casi siempre, era habitado por una única familia. Final-
mente se consiguió encuestar a 976 hogares, es decir, un 95,2% de los inicialmente dese-
ados. Para efecto de este trabajo se utilizó indistintamente la expresión hogar o familia.
El cuestionario tenía 3 bloques de preguntas cerradas y abiertas que generaron las
siguientes variables de estudio:
La zona urbana del municipio de Ibiá estaba dividida por la administración munici-
pal en dos áreas de salud según criterios de tipo socioeconómicos. El área A o zona A
(predominantemente clase media y media alta) y el área B o zona B (predominantemente
clase media baja y baja).
Observe que en la tabla 9.1 se detallan las variables registradas en dos archivos dis-
tintos, aunque ambos poseen idénticas variables. El primero corresponde a los hogares
de la zona A y el segundo a los de la zona B.
En la Tabla 9.2 se muestra la información referente a cada uno de los fármacos loca-
lizados en los hogares, así como los grupos terapéuticos en los que puede ser clasificado.
Tabla 9.2. Información de los fármacos encontrados en los hogares en el archivo FARMACOS.XLS.
Sobre este archivo cabe indicar de nuevo que cada registro (cada fila de la matriz de
datos) se corresponde a un único fármaco. Concretamos esto porque es posible que Ud.
pueda extrañarse al observar que en un mismo registro se indican más de un grupo tera-
péutico. Tal y como se ha indicado anteriormente, esto es perfectamente posible puesto
que un mismo medicamento puede tener más de una acción terapéutica. Por ejemplo, es
conocido que muchos fármacos actúan simultáneamente como analgésicos y antiinfla-
matorios.
Objetivo — El ejercicio consiste en describir de forma bivariada la asociación entre los factores
sociodemográficos, económicos y de morbilidad percibida (en forma de presencia de
enfermos agudos y crónicos) y la tenencia o no de medicamentos en los hogares.
— Como objetivo específico, compruebe también la prescripción de fármacos según el
grupo terapéutico y la condición socioeconómica.
— Según sus intereses fije sus propias hipótesis y realice las descripciones apropiadas
para obtener la información que responda a ellas.
Algunas indicaciones 1. Antes de intentar observar las asociaciones entre la tenencia de fármacos y los fac-
tores de interés siga, como siempre, todas las fases de análisis de un estudio: impor-
tación de archivos de datos, definición, creación y recodificación de variables, mani-
pulación de archivos, control de calidad de los datos registrados y descripción
univariada de los mismos.
2. El investigador principal de este estudio no estaba especialmente interesado en las
variables sobre las características del hogar de forma independiente. Dichas varia-
Uso profesional del SPSS Materials 187
De esta forma se construyó una variable cuyo rango de valores podía variar entre 0
(no presenta ninguna característica «favorable») y 11 (presenta todas las caracterís-
ticas «favorables»). Posteriormente, esta variable puntuación se categorizó en dos gru-
pos en función de la mediana observada.
Compruebe que esta categorización se asocia muy positivamente al cruzar la varia-
ble dicotomizada con el área A y B de salud, áreas de distinta clasificación econó-
mica y social según el municipio de Ibiá.
3. Categorice la tenencia de fármacos, variable de interés, en dos grandes grupos en
función de la mediana del total de fármacos observados en cada hogar.
4. Las variables número de personas mayores de 64 años y número de personas meno-
res de 15 años trátelas como presencia/ausencia de individuos con esas caracterís-
ticas en el hogar, no como el número total de ellos.
5. Observe, también, la más que posible asociación entre el número de habitantes en
el hogar (categorizada por la mediana) y la tenencia de fármacos.
188 Materials Albert Navarro; Miguel Martín
*****************************************************************.
* Pasamos los archivos a formato de datos SPSS, realizamos el *.
* control de calidad y creamos un archivo único de trabajo. *.
*****************************************************************.
SAVE OUTFILE=’C:\SPSS\Autoeval\zona_a.sav’
/COMPRESSED.
SAVE OUTFILE=’C:\SPSS\Autoeval\zona_b.sav’
/COMPRESSED.
* Guardamos el archivo *.
190 Materials Albert Navarro; Miguel Martín
SAVE OUTFILE=’C:\SPSS\Autoeval\hogares.sav’
/COMPRESSED.
SAVE OUTFILE=’C:\SPSS\Autoeval\farmacos.sav’
/COMPRESSED.
AGGREGATE
/OUTFILE=’C:\SPSS\Autoeval\farm_fam.sav’
/BREAK=id_fam
/tot_farm = MAX(farm_num).
GET FILE=’C:\SPSS\Autoeval\farm_fam.sav’.
SAVE OUTFILE=’C:\SPSS\Autoeval\tot_farm.sav’
/COMPRESSED.
RECODE hacinam
(Lo thru 1=1) (1.01 thru Hi=2) INTO hac.
EXECUTE .
VAR LAB hac ‘Nº de personas por habitación (categorizada)’ .
VAL LAB hac 1 ‘<= 1 pers/hab’ 2 ‘> 1 pers/hab’ .
VAR LEV hac (ORDINAL) .
FOR hac (f1) .
FREQ hac .
RECODE tot_farm
(Lo thru 5=1) (6 thru Hi=2) INTO farm .
EXECUTE .
VAR LAB farm ‘Tenencia de fármacos (categorizada)’ .
VAL LAB farm 1 ‘< 6’ 2 ‘>= 6’ .
VAR LEV farm (NOMINAL) .
FOR farm (f1) .
FREQ farm .
RECODE csepunt
(Lo thru 6=1) (7 thru Hi=2) INTO cse .
EXECUTE .
SAVE OUTFILE=’C:\SPSS\Autoeval\far_ibia.sav’
/COMPRESSED.
*****************************************************************.
* Realizamos la descripción univariada de las variables *.
* registradas y creadas *.
*****************************************************************.
* Variables categóricas *.
FREQ agudos cronicos escola sanitari agua colecta alcant coche
nevera tv diario revista zona hac pers_hog mayores2 menores2
cse .
DESCRIPTIVES hacinam
/ STATISTICS=ALL .
*****************************************************************.
* Buscamos asociaciones entre las variables explicativas y la *.
* tenencia de fármacos *.
*****************************************************************.
CROSS
agudos cronicos escola zona hac pers_hog mayores2 menores2 cse
BY farm
/ CELLS = COUNT ROW .
EXECUTE .