Curso Basico de Bioestadistica en SPSS para Clinicos - 15

CURSO BÁSICO DE BIOESTADÍSTICA EN SPSS PARA
CLÍNICOS
Inmaculada Arostegui
Amaia Bilbao
Comentario de las autoras:
Estos apuntes han sido desarrollados como complemento al curso titulado Introducción
al manejo del programa SPSS para el análisis de datos ofrecido en el programa de
formación continuada del Hospital Galdakao-Usansolo. Las autoras hemos tomado
como punto de referencia los textos citados en la bibliografía y hemos añadido nuestra
perspectiva personal y muchos años de experiencia en la enseñanza de la bioestadística
en ciencias sanitarias y experimentales, para generar este texto de ayuda al curso
mencionado
Autoras:
Inmaculada Arostegui Madariaga
Departamento de Matemática Aplicada y Estadística e Investigación Operativa
Facultad de Ciencia y Tecnología
Universidad del País Vasco UPV/EHU
Barrio Sarriena S/N. 48940 Leioa (Bizkaia)
e-mail: inmaculada.arostegui@ehu.es
Amaia Bilbao González

Oficina de Apoyo Metodológico a la Investigación
Instituto Vasco de Investigaciones Sanitarias (O+Iker)
Fundación Vasca de Innovación e Investigación Sanitarias (BIOEF)
Plaza Asúa, 1. 48150 Sondika (Bizkaia)
e-mail: abilbao@bioef.org
Depósito-legal:
BI-281-08
Índice Bioestadística con SPSS
ÍNDICE
Tema 1: Introducción al SPSS 1
Tema 2: Ficheros de datos 8
Tema 3: Funciones del editor de datos 18
Tema 4: Procedimientos descriptivos básicos 30
Tema 5: Inferencia para una muestra 43
Tema 6: Comparación de dos medias independientes 54
Tema 7: Análisis de la varianza 63
Tema 8: Regresión lineal y correlación 76
Tema 9: Análisis de datos categóricos 103
Tema 10: Pruebas de bondad de ajuste 128
Tema 11: Estadística no paramétrica 138
Apéndice: Tablas 148
I. Arostegui, A. Bilbao i
Bibliografía Bioestadística con SPSS
BIBLIOGRAFÍA
Armitage P., Berry G.. Statistical Methods in Medical Research. 3rd edition. Blackwell Scientific
Publications, Oxford 1994.
Ferrán Aranaz M.. SPSS para Windows. Programación y Análisis Estadístico. McGraw-
Hill/Interamericana de España, Madrid 1996.
Fleiss J.L.. Statistical Methods for Rates and Proportions. 2nd edition. John Wiley & Sons, Inc.
New York 1981.
Kahn H.A., Sempos C.T. Statistical Methods in Epidemiology. Oxford University Press, Inc. New
York, 1989.
Landau S., Everitt B.S.. A handbook of statistical analysis using SPSS. Chapman Hall, London
2003.
Milton J. S.. Estadística para Biología y Ciencias de la Salud. 3ª edición. McGraw-

Hill/Interamericana de España, Madrid 2001.
Pérez C.. Técnicas estadísticas con SPSS. Prentice Hall, Madrid 2001.
Rosner B.. Fundamentals of Biostatistics. 4th edition. Duxbury Press, Belmont 1995.
I. Arostegui, A. Bilbao ii
Introducción al SPSS Bioestadística con SPSS
Tema 1: INTRODUCCIÓN AL SPSS
1.1. INTRODUCCIÓN
Desde sus orígenes, los ordenadores se han utilizado para el procesamiento estadístico
de datos. Aunque los campos de aplicación de la estadística sean diferentes, los métodos
son comunes, lo que ha dado lugar a la estandarización automatizada de las técnicas
estadísticas, apareciendo una gran variedad de paquetes estadísticos que difieren entre sí
en sus características, capacidad, facilidad de uso, entornos de aplicación, extensión,
precio, documentación, etc…
Entre estos paquetes estadísticos está el SPSS (Statistical Package for the Social
Sciences), con más de 30 años de existencia, diseñado inicialmente por Hull y Nie.
SPSS es un paquete estadístico que funciona a través de un sistema de ventanas. El
tratamiento de datos y los análisis estadísticos básicos se pueden llevar a cabo mediante
sencillos cuadros de diálogos y utilizando simplemente el ratón sin necesidad de
programar. La opción de realizar programas está siempre disponible para usuarios
expertos. Estas notas están diseñadas para la versión 11.0 de SPSS, aunque en la
actualidad existen versiones superiores disponibles.
En general, con SPSS podremos realizar:
• Tratamiento de datos: Se nos permitirá definir, modificar e introducir datos
creando ficheros de datos (ficheros con extensión *.sav).
• Tratamiento de salidas: Los resultados de los cálculos y análisis que le pidamos
se recogerán en un fichero de resultados o salidas (ficheros con extensión *.spo).
• Gráficos de alta resolución: Podremos obtener gráficos de alta resolución,
incluirlos en el fichero de resultados y modificarlos cuando creamos oportuno.
Para todo ello SPSS dispone de diferentes tipos de ventanas. Sin embargo, para los
objetivos más comunes es suficiente manejar las tres siguientes:
• Editor de datos: Este editor nos mostrará las variables (por columnas) e
individuos/observaciones (por filas) que contiene el fichero de datos. Es el que
nos permitirá definir, modificar o introducir datos.
• Navegador de salidas: Este navegador nos permitirá trabajar con el fichero de
resultados (*.spo) que reúne los resultados numéricos y gráficos que hayamos
realizado. Su particular menú nos permitirá insertar textos, gráficos, etc... En
general, podremos dar un aspecto de informe a los resultados obtenidos.
Aunque, la mayoría de las veces es más cómodo exportar estas salidas a un
procesador de textos y ahí dar un formato final y adecuado a los resultados. Esto
último se puede realizar fácilmente utilizando las opciones de copiar y pegar en
el editor.
• Editor de gráficos: Se activa con un doble click del ratón sobre el gráfico que se
quiera modificar. De esta forma se edita el gráfico en este editor, permitiendonos
hacer los cambios deseados sobre los colores, las escalas de los ejes, los títulos,
etc...
Por otra parte, SPSS es un programa modular. Hay que comprar cada modulo por
separado y actualizarlo periódicamente. Todas las técnicas que se cubren en estas notas
están integradas en la licencia adquirida por el Servicio Vasco de Salud/Osakidetza.
I. Arostegui, A. Bilbao 1
1.2. AYUDA
La ayuda de SPSS está disponible de diferentes formas, aunque las formas más
comunes de acceder son a través del menú principal de ayuda directamente y a través
del botón de ayuda en los cuadros de diálogo.
Menú de ayuda (?). Todas las ventanas tienen un menú de ayuda (?) en la barra de
menús.
El elemento de menú Temas proporciona acceso a las pestañas Contenido, Índice y

Buscar, que pueden usarse para buscar temas específicos de la Ayuda. El elemento de
menú Tutorial proporciona acceso al tutorial de introducción.
Si seleccionamos la opción >Ayuda >Temas veremos una ventana con varias pestañas:
• La pestaña Contenido muestra un listado general de temas. Es útil si se busca
información general. Si se pulsa sobre el icono de libro de cualquier tema,
aparece una lista desplegable de temas que tienen relación con el tema general
inicial. Algunos temas incluyen un botón Demostración en la parte inferior, que
permite acceder directamente a un tutorial sobre ese tema.
Ejemplo 1.1: Si se pulsa sobre Gráficos Interactivos, aparecerá una lista de iconos
de interrogación con aspectos diferentes sobre este tema. Si seleccionamos la
opción Galería de gráficos interactivos podremos ver los tipos principales de
gráficos interactivos que se pueden crear con SPSS.
• La pestaña Índice dispone de un índice que permite buscar temas específicos

ordenados por orden alfabético, como el índice de un libro. Por ejemplo, si
escribimos “ANOVA” se mostrarán las diferentes opciones de ayuda existentes
para esta técnica.
• La pestaña Buscar sirve para realizar búsquedas de texto en índice. Para ello, la
primera vez se generará una base de datos de términos que permitirá facilitar la
búsqueda de palabras ó frases específicas.
Los siguientes gráficos muestran la utilización de los menús Índice y Buscar del menú
principal de ayuda. Las opciones Índice y Contenido son más cómodas de utilizar que la
opción Buscar, recomendada únicamente si no logra encontrar lo que busca con las dos
anteriores.
Botón Ayuda en los cuadros de diálogo. La mayoría de los cuadros de diálogo

disponen de un botón Ayuda que permite acceder directamente al tema de ayuda
correspondiente. Este tema proporciona información general y enlaces a los temas
relacionados.
Ejemplo 1.2: Si se quiere realizar una comparación de medias en dos grupos usando una
prueba T, el cuadro de diálogo correspondiente nos proporcionará ayuda sobre dicho
procedimiento:
También en muchos cuadros de diálogo se puede encontrar ayuda sobre aspectos

concretos del mismo pulsando el botón derecho del ratón sobre dicho aspecto (por
ejemplo en el cuadro superior al pulsar el botón sobre el término Variable de
agrupación, aparecería una ventana con una explicación sobre definición y utilidad). Es
lo que se llama Ayuda contextual.
Esta misma ayuda de menú contextual se aplica a tablas pivote (de datos, de
resultados, etc..) en el momento en que se activan para su visualización.
Otra forma útil de obtener ayuda es a través del Asesor estadístico. El elemento Asesor
estadístico del menú principal de ayuda (?) proporciona un método de asistencia para
encontrar el procedimiento estadístico o de gráficos adecuado para lo que desea realizar.
Los siguientes gráficos le muestran un ejemplo de utilización del asesor estadístico.
Ejemplo 1.3: Supongamos que lo que queremos es evaluar relaciones entre variables.
Si las variables son de tipo numérico y queremos analizar solo 2 variables.
Si no queremos gráficos sino resultados numéricos.
Vemos que el asesor estadístico nos indica que el método aconsejado es el de estimar el
coeficiente de correlación de Pearson y nos señala que para utilizarlo hay que pulsar
>Analizar >Correlaciones >Bivariadas >Pearson
El menú principal de ayuda incorpora además un Tutorial y una Guía de sintaxis. Esta
última ofrece una ayuda muy amplia y completa sobre la sintaxis del programa con
todos sus comandos ordenados por temas en archivos de tipo PDF.
Finalmente, en el menú principal de ayuda aparecen las opciones Acerca de SPSS y
Registro del producto. La primera ofrece información sobre la versión del programa y la
segunda permite registrarse como usuario y conectarse a la página web de SPSS
(www.spss.com).
Ficheros de datos Bioestadística con SPSS
Tema 2: FICHEROS DE DATOS
2.1. INTRODUCCIÓN
El paquete estadístico SPSS para Windows se activará pulsando doblemente el ratón
sobre el icono previamente colocado en el escritorio o mediante la ejecución de las
instrucciones Inicio >Programas >SPSS for Windows >SPSS 11.0 para Windows.
Spss.lnk
Seguidamente, aparecerá un cuadro de dialogo, que se muestra a continuación,
preguntando qué desea hacer. Este menú nos permitirá básicamente ejecutar el tutorial,
introducir datos, abrir una base de datos existente (*.sav) o abrir archivos de otro tipo
como por ejemplo resultados o gráficos (*.spo). En los siguientes apartados se explica
de forma detallada como realizar cada una de estas acciones. Existen otras dos opciones
en el menú, sobre ejecución y creación de consultas que no desarrollaremos en estas
notas.
Este cuadro de dialogo puede ser cerrado en cualquier momento utilizando el botón
Cancelar. También podemos hacer que no vuelva a aparecer en posteriores ocasiones
seleccionando la opción No volver a mostrar este cuadro de dialogo que aparece en la
parte inferior del mismo. Todas las funciones que se van a describir a continuación se
pueden realizar igualmente desde el menú principal.
2.2. ABRIR UN FICHERO DE DATOS

Si lo que se desea es trabajar con una base de datos anteriormente creada, se selecciona
la opción Abrir una base de datos existente en el cuadro de dialogo anterior. Se abrirá
un nuevo cuadro de dialogo titulado Abrir datos en el cual se debe seleccionar en el
campo Buscar en la ruta donde se encuentra el fichero que se desea. Una vez localizado
el archivo *.sav que se desea abrir, se selecciona éste y se pulsa el botón Abrir. Se abrirá
la ventana denominada Editor de datos SPSS donde se podrán ver los datos del fichero
de datos seleccionado.
Casos/
individuos
Variables
Vista Datos Vista Variables
Los ficheros de datos SPSS se identifican con la extensión SAV y se visualizan

mediante el editor de datos. El editor dispone de dos tipos de vista: Vista datos y Vista
variables. La barra de menús de este editor es de la siguiente forma y dispone de los
siguientes menús:
Archivo: A partir de aquí podremos, entre otras opciones, abrir y guardar

ficheros de datos, leer ficheros de datos creados por otros programas e imprimir
los contenidos del editor de datos.
Edición: Lo utilizaremos para cortar, copiar y pegar valores del fichero de datos.
Además para buscar valores de datos y cambiar las opciones por defecto del
paquete.
Ver: Lo utilizaremos para elegir vista datos/ vista variables, manejar la barra de
herramientas, y controlar el modo de visualización de los datos.
Datos: Lo utilizaremos para hacer cambios globales sobre los ficheros de datos
SPSS, así como selección de los individuos de interés, fusión de ficheros de
datos, transposición de individuos y variables,...
Transformar: Lo utilizaremos para hacer cambios sobre variables seleccionadas
en el fichero de datos y crear nuevas variables a partir de las existentes en el
fichero de datos SPSS.
Analizar: Lo utilizaremos para realizar los análisis estadísticos deseados como
tablas de frecuencia, tablas de contingencia, análisis de la varianza, correlación,...
Gráficos: Lo utilizaremos para crear gráficos como diagramas de barras,

diagramas de sectores, histogramas, diagramas de dispersión,...
Utilidades: Esta opción nos permitirá obtener información acerca de las variables
del fichero de datos.
Ventana: Lo utilizaremos para cambiar de una ventana a otra.
Ayuda: Aquí podremos obtener ayuda acerca del manejo del SPSS.
Cuando estemos en el editor de datos en modo Vista de datos veremos la estructura
básica de los archivos de datos. Cada fila representa un individuo de la muestra
(observación) y cada columna es una variable a estudio. El modo Vista de variables del
editor de datos, al cuál accedemos desde la pestaña inferior derecha con dicho nombre,
nos muestra las características de las variables (columnas) del archivo de datos.
También podemos abrir un fichero de datos existente desde la opción Archivo >Abrir
>Datos del menú principal.
2.3. CREAR UN FICHERO DE DATOS

Supongamos que deseamos introducir en SPSS una información que disponemos “en
papel”, para su posterior tratamiento estadístico. Para ello, debemos crear primero un
fichero de datos en blanco (plantilla), para posteriormente ir introduciendo la
información disponible sobre los individuos a estudio.
Esto podemos hacerlo seleccionando la opción Introducir datos en el cuadro de diálogo
que nos muestra el SPSS al abrirlo (primer gráfico de este tema), o también podremos
hacerlo seleccionando la opción >Archivo >Nuevo >Datos en el menú principal.
En cualquiera de ambos casos, debemos recordar que:

Las filas son casos. Cada fila se refiere a una observación. Por ejemplo, las
respuestas a una encuesta de un individuo forman un caso.
Las columnas son variables. Cada columna representa una variable o característica
que se ha medido sobre los individuos. Por ejemplo, cada pregunta de un
cuestionario representa una variable.
Las celdas contienen valores. Cada celda contiene un valor observado de una
variable en un individuo. Cada celda sólo puede contener un valor y no fórmulas.
De esta forma, los datos tendrán un aspecto rectangular (tantas filas como número de
individuos y tantas columnas como número de variables).
Antes de proceder a introducir los datos, debemos crear la plantilla de captura de datos,
definiendo las variables y sus características de forma precisa.
2.3.1. DEFINIR VARIABLES
A cada variable del archivo se le debe asignar la definición del tipo de datos que
contendrá. Lo haremos a través del modo Vista variables y pinchando en el campo
interesado. Esta definición del tipo incluye los campos:
Nombre de la variable. El nombre de la variable puede contener cualquier carácter
aunque su máxima extensión es de 8 caracteres y debe comenzar por una letra. No son
caracteres válidos espacios en blanco, ni caracteres especiales como por ejemplo ¡, ¿, ‘,
“, *. Dos variables distintas no pueden tener el mismo nombre. No se hacen distinciones
entre caracteres mayúsculas y minúsculas. Es decir, los nombres Edad y EDAD son el
mismo.
Tipo de variable. Las variables pueden ser de diferente tipo: numérico, cadena, fecha,
etc,.… Distinguiremos entre los dos tipos más importantes: numéricas y cadenas.
Disponemos de 8
Disponemos de 8
dígitos, dos de ellos
caracteres
para decimales
Cuando la variable es de tipo numérico significa que sus valores se podrán tratar
numéricamente, es decir, se podrán hacer operaciones matemáticas con ella. Sin
embargo, cuando la variable es de tipo cadena, los valores que toma la variable son
caracteres y por ejemplo los caracteres “3” y “a” tienen el mismo tratamiento. Por tanto
no se podrán realizar operaciones matemáticas, aún cuando los caracteres tengan forma
de número. Además se podrá asignar el ancho de caracteres que dispondremos para los
valores de la variable y el número de decimales que se quieren utilizar cuando la
variable sea numérica. En los formatos para variables de tipo fecha se pueden utilizar
guiones, barras, espacios,... para separar los días, los meses y los años. Por ejemplo, el
formato dd/mm/aa utiliza barras para separarlos. El rango de siglo para identificar los
años únicamente con dos dígitos se puede determinar en Edición >Opciones. La
definición del resto de tipos de variables se puede encontrar en los manuales del SPSS.
Por defecto, todas las nuevas variables son numéricas de ancho 8 con 2 dígitos
decimales.
Se recomienda utilizar variables de tipo cuantitativo en vez de tipo cadena incluso para
designar variables cualitativas.
Etiqueta descriptiva de la variable y etiquetas de sus valores. Las etiquetas nos
permiten describir las variables de forma más detallada. Además se pueden asignar
etiquetas a los valores que puede tomar la variable.
Nombre de la
variable
La variable de nombre ENFCOR
muestra si el individuo ha padecido
alguna enfermedad coronaria
(ENFCOR=1), o bien, si el individuo no
ha padecido ninguna enfermedad
Valores que toma la

variable y sus respectivas
etiquetas
Codificación de los missing o valores perdidos. Debemos utilizar esta opción cuando
el fichero de datos contenga valores que hay que interpretarlos como faltantes. Por
ejemplo, si en nuestro fichero de datos debemos entender los valores 999 como
perdidos, deberemos especificarlo en un cuadro de dialogo de la siguiente forma:
Como podéis observar hay más campos que los aquí citados. Sin embargo hemos
considerado que los citados son los más importantes en cuanto a su utilidad.
2.3.2. INTRODUCIR LOS DATOS
Una vez que se han definido las variables, podemos empezar a introducir los datos.
Pasamos ahora al modo Vista de datos del editor y vemos como en las columnas
aparecerán las variables que hemos definido anteriormente. Para crear el fichero de
datos simplemente debemos introducir los valores ordenadamente en las celdas,
recordando que cada fila corresponde a un individuo.
2.3.3. GUARDAR LOS DATOS
Una vez que la introducción de los datos ha finalizado, se procede a guardar los datos
introducidos mediante la opción >Archivo >Guardar como del menú principal. Se
abrirá el cuadro de dialogo Guardar datos como donde debemos buscar el directorio o
carpeta donde queremos guardar la base de datos y escribir el nombre que queremos dar
a la base de datos. En el campo Tipo: aparecerá por defecto SPSS (*.sav) que
corresponde a la extensión de las bases de datos de SPSS. Pulse Guardar y el nuevo
fichero de datos quedará grabado para su posterior análisis. La primera vez que se crea o
se desea guardar un fichero de datos, se recomienda usar la opción Guardar como aquí
descrita, en vez de la opción Guardar. Una vez creado el fichero, en posteriores
opciones de grabado, será suficiente utilizar la opción Guardar o simplemente pulsar
sobre el icono del diskette que aparece bajo el menú principal de SPSS.
Se recomienda usar la opción Guardar periódicamente en el proceso de introducción de
datos y no únicamente cuando los datos se han introducido en su totalidad, para así
evitar perder la información introducida en el ordenador debido a cualquier imprevisto.
El proceso de recogida de datos puede ser intermitente, no es necesario que los datos
sean introducidos en su totalidad de una sola vez.
2.4. ABRIR UN FICHERO DE DATOS DE TIPO TEXTO

SPSS nos permite leer ficheros de tipo texto o ASCII (FICHERO.TXT,
FICHERO.DAT) mediante la opción >Archivo >Leer datos de texto.
Seleccionamos el fichero de datos que queremos abrir en SPSS y esto nos llevará a un
asistente para poder leer los datos correctamente. Si la primera fila contiene los nombre
de las variables, es posible leer esos nombres. Simplemente deberemos indicar sí
cuando en el asistente nos muestre: ¿Están incluidos los nombres de las variables en la
parte superior del archivo?.
Si cada variable empieza en la misma posición de columna en cada caso, se dice que el
formato es fijo. Si se utilizan comas, espacios, tabuladores u otros caracteres para
separar los valores de distintas variables, se dice que el formato es delimitado.
Los valores de las variables

en cada caso (línea),
empiezan en la misma
columna
Los valores de las variables

en cada caso están
separados por un espacio.
2.5. IMPORTAR UN FICHERO DE DATOS

Otra opción también disponible en SPSS es importar ficheros de datos desde otros
programas estadísticos, como por ejemplo SYSTAT; desde hojas de cálculo, como por
ejemplo EXCEL; o desde bases de datos, como por ejemplo DBASE. Esta importación
de datos se puede hacer directamente desde >Archivo >Abrir y eligiendo el tipo de
archivo que queremos importar en el cuadro de dialogo que aparece.
Sin embargo, si nos interesa importar algún otro fichero de datos utilizaremos el
administrador ODBC seleccionando la opción >Archivo >Abrir base de datos >Nueva
consulta
Esto nos llevará al asistente que nos facilitará la lectura de datos deseada. El asistente es
muy fácil de manejar pero en general tendremos que elegir la fuente de la base de datos
original ( DBASE, Excel, FoxPro, MQIS, MS Access, Texto,…), el fichero que

contiene los datos e indicar las tablas o campos que se desean importar a SPSS.
2.6. UNIR FICHEROS DE DATOS

Los ficheros de datos de SPSS se pueden unir de dos formas, bien para incluir nuevas
variables sobre los mismos casos (Añadir variables), o bien para incluir nuevos casos
con las mismas variables (Añadir casos).
2.6.1. FUNDIR ARCHIVOS CON LAS MISMAS VARIABLES E INDIVIDUOS
DIFERENTES
Supongamos que queremos unir dos ficheros de datos con las mismas variables, pero
con individuos diferentes.
Ejemplo 2.1:, Supongamos que tenemos los siguientes ficheros.
PA1.SAV
IND NOMBRE SEXO HOSPITAL
1043 Aguirre H 111
2751 Bilbao H 111
3528 Garay M 111
4705 Kintana H 111
PA2.SAV
1172 Mitxelena M 112
2094 Ruiz M 112
3877 Legarreta M 112
Para ello debemos en primer lugar abrir uno de los dos ficheros, por ejemplo el primero
PA1.SAV y seleccionar >Datos >Fundir archivos >Añadir casos. Esto nos llevará al
cuadro de dialogo donde habrá que elegir el fichero que contiene el resto de los casos.
En nuestro caso el segundo fichero PA2.SAV. Comprobar y modificar si fuera
necesario, que el fichero resultante tiene las variables deseadas mediante el cuadro de
dialogo que nos ofrecerá el SPSS. El SPSS ha creado un nuevo fichero que contiene los
casos de los dos ficheros. Guardarlo utilizando la opción > Archivo >Guardar como. Si
utilizamos la opción >Archivo >Guardar (o lo que es equivalente, pulsamos el diskete
del menú principal), el archivo resultante se guardará encima del que se había abierto en
último lugar (PA2.SAV), dando lugar a la pérdida de este último.
Este proceso generará un nuevo fichero de datos que contiene los 4 individuos de
PA1.SAV más los 3 individuos de PA2.SAV (las variables son las mismas en los dos
ficheros). Es decir, la base de datos resultante será:

1043 Aguirre H 111
2751 Bilbao H 111
3528 Garay M 111
4705 Kintana H 111
1172 Mitxelena M 112
2094 Ruiz M 112
3877 Legarreta M 112
2.6.2. FUNDIR ARCHIVOS CON LOS MISMOS INDIVIDUOS Y VARIABLES

DIFERENTES
Ejemplo 2.2: Supongamos que queremos unir dos ficheros de datos con los mismos
individuos, pero con información diferente sobre ellos, como muestra el siguiente
ejemplo.
ANTES.SAV
HISTORIA SEXO EDAD NIVEL1 O2
145634 H 53 243
356742 H 24 129
672351 M 36 238
673461 H 64 167
DESPUES.SAV
HISTORIA NIVEL2 O2 TEST SEVERIDAD
145634 298 neg leve
356742 173 pos grave
672351 254 pos leve
673461 201 neg moderado
Los individuos de los dos ficheros son los mismos (Podemos identificarlos por su
historia). Sin embargo tenemos dos fuentes de información sobre ellos: los datos
relativos a “antes” de una intervención (ANTES.SAV) y los datos posteriores a la
intervención (DESPUES.SAV). Queremos crear un nuevo fichero de datos que reúna la
información de los dos ficheros.
Para ello debemos en primer lugar abrir uno de los dos ficheros, por ejemplo el primero
ANTES.SAV y seleccionar >Datos >Fundir archivos >Añadir variables. Esto nos
llevará al cuadro de diálogo donde habrá que indicar qué fichero contiene el resto de la
información. En nuestro caso DESPUES.SAV. En el siguiente cuadro de diálogo habrá
que indicar cuál es la variable clave para identificar cada caso (variable historia),
teniendo en cuenta que los ficheros deben estar ordenados de forma ascendente respecto
a la variable clave para que la asignación se realice correctamente. Además, habrá que
comprobar y modificar si fuera necesario, que el fichero resultante tiene las variables
deseadas. El SPSS ha creado un nuevo fichero que contiene los casos de los dos
ficheros. Guardarlo como se ha explicado en el apartado anterior, utilizando la opción
>Archivo >Guardar como, pues en otro caso se perderá la información del fichero
DESPUES.SAV.
Este proceso generará un nuevo fichero de datos que contiene las siete variables. Es
decir, la base de datos resultante será de la forma:
HISTORIA SEXO EDAD NIVEL1 O2 NIVEL2 O2 TEST SEVERIDAD

145634 H 53 243 298 neg leve
356742 H 24 129 173 pos grave
672351 M 36 238 254 pos leve
673461 H 64 167 201 neg moderado
Funciones del editor de datos Bioestadística con SPSS
Tema 3: FUNCIONES DEL EDITOR DE DATOS
3.1. INTRODUCIÓN
En el capitulo anterior se han descrito algunas de las funciones básicas del editor de
datos, especialmente las destinadas a crear un fichero de datos. Aquí se detallan algunas
de las acciones más importantes a tener en cuenta:
Introducir datos. En el editor de datos seleccione una casilla en Vista de datos e
introduzca el valor de los datos. El valor se muestra en el Editor de casillas situado en
la parte superior del editor de datos. Pulse Intro o seleccione otra casilla para registrar el
valor.
Reemplazar o modificar un valor. En Vista de datos, pulse sobre la casilla que desee
modificar, su valor aparecerá en el Editor de casillas, reemplace el valor directamente
en la casilla o en el editor de casillas y pulse Intro o desplácese a otra casilla.
Insertar un nuevo caso. En Vista de datos, seleccione cualquier casilla en el caso (fila)
debajo de la posición donde desea insertar el nuevo caso y elija en los menús Datos >
Insertar caso. Se inserta una fila nueva para el caso y todas las variables reciben el valor
perdido por el sistema.
Insertar una nueva variable. Seleccione cualquier casilla de la variable a la derecha
(Vista de datos) o debajo (Vista de variables) de la posición donde desea insertar la
nueva variable. Elija en los menus Datos >Insertar variable. Se inserta una nueva
variable y todos los casos reciben el valor perdido por el sistema.
Una vez que la base de datos ha sido generada, recuperada o simplemente abierta,
existen otra serie de funciones específicas que se pueden realizar sobre los datos.
3.2. TRANSFORMACIÓN DE DATOS

SPSS dispone de muchas funciones y métodos para modificar y transformar un fichero
de datos ya existente. A diferencia de una hoja de cálculo como Excel ó Quattro Pro,
SPSS no nos permite introducir ecuaciones ó funciones de variables en las celdas de
datos. Pero permite crear nuevas variables utilizando dichas ecuaciones y funciones a
partir de sus opciones de menú.
Partiendo de un fichero de datos se pueden calcular nuevos valores de los datos basados
en transformaciones numéricas de variables existentes. Veamos diferentes formas de
realizar estas transformaciones de datos.
3.2.1. CALCULAR UNA NUEVA VARIABLE
Este procedimiento resulta muy útil en numerosos procesos de análisis estadísticos. Se
utiliza por ejemplo para cambiar las unidades de medida o para crear nuevas variables.
Ejemplo 3.1: Supongamos que tenemos un fichero con el peso y la talla en centímetros
de 10 individuos y nos interesa obtener el índice de masa corporal. Para ello debemos
realizar dos pasos: transformar la talla a metros y dividir el peso entre el cuadrado de la
talla en metros para cada individuo. Para ello, seleccionamos >Transformar >Calcular
de la barra de menú principal.
En el cuadro de diálogo que aparece hay que indicar cuál va ser el nombre de la nueva
variable que queremos crear.
Para ello le daremos nombre
como variable de destino.
Posteriormente escribiremos
la expresión que va a dar
lugar a la nueva variable.
Para ello disponemos de:
variables de origen
operadores algebraicos
múltiples funciones
Existen más de 70 funciones aritméticas, estadísticas, de fecha y hora, de valores

perdidos, de distribución de probabilidades y lógicas.
En primer lugar, creamos la variable TALLAMET (talla en metros):
Para ello introducimos la
expresión que la produce,
pulsamos Aceptar y la
nueva variable aparecerá
como la última variable en
el Editor de datos. Se
puede especificar el tipo de
variable y asignarle una
etiqueta antes de crearla.
En segundo lugar, seleccionamos nuevamente >Transformar >Calcular de la barra de

menú principal y creamos la variable IMC, resultado de dividir el PESO entre
TALLAMET al cuadrado.
Si en el cuadro Variable de destino ponemos el nombre de una variable ya existente, lo

que vamos a hacer es sustituir los valores antiguos de esa variable por los nuevos
valores, resultado de aplicar la expresión numérica correspondiente.
3.2.2. RECODIFICAR VARIABLES
Este procedimiento es muy útil para combinar categorías. Existen varias posibilidades.
Se puede recodificar una variable en la misma variable (es decir, cambiar sus códigos
numéricos ó de texto) ó se puede crear una nueva variable. Para recodificar variables
hay que seleccionar >Transformar >Recodificar y escoger si lo queremos hacer en las
mismas ó en distintas variables
Ejemplo 3.2: Supongamos que tenemos codificadas las variables dicotómicas (Si/No)
como 1 y 2 respectivamente. Puede haber procedimientos en los que es necesario que la
codificación sea 0 = No y 1 = Si. Podríamos seleccionar esas variables (todas deben de
ser del mismo tipo) y recodificarlas simultáneamente.
A modo de ejemplo, vamos a realizarlo con las variables HIPERTEN (es hipertensa) y
CONOCIA (conocía previamente su diagnóstico) del fichero de datos
ENDOMETR.SAV. Vemos que dichas variables están codificadas como 1 y 2.
Para ello, abriremos el cuadro de diálogo correspondiente y seleccionaremos las dos

variables.
A continuación pulsaremos el botón

Valores antiguos y nuevos y en la
nueva ventana que se nos presenta
indicaremos para cada valor antiguo el
nuevo valor que queremos.
Podremos recodificar valores perdidos
y rangos de valores en el caso de datos
numéricos.
Los resultados de este procedimiento se podrán apreciar en el Editor de Datos
Si en vez de modificar los valores de estas variables ya existentes queremos crear una
nueva, se abrirá un cuadro de diálogo en el que tendremos que dar nombre (y etiqueta
opcionalmente) a la nueva variable que vamos a crear. Posteriormente tendremos que
realizar el mismo procedimiento de asignar valores nuevos a los antiguos. La nueva
variable creada, será la última en la Vista de Datos del Editor de datos.
Como hemos indicado antes, una aplicación muy útil de la recodificación es la

combinación de categorías ó la categorización de variables (ver también más adelante).
Ejemplo 3.3: Supongamos que a partir de la variable NHIJOS (nº de hijos) creamos una
nueva variable llamada FAMNUM (familia numerosa) con tres posibles valores (0 =
No, 1 = Si y , = desconocido). Para ello, abriríamos el cuadro de diálogo Recodificar en
distintas variables, asignaríamos el nombre a la nueva variable e indicaríamos la
relación entre valores nuevos y antiguos.
3.2.3. RECODIFICACIÓN AUTOMÁTICA

Nos permite crear una nueva variable con los valores de la variable original
transformados en una serie ordenada de números enteros consecutivos.
Ejemplo 3.4: Imaginemos que tenemos una variable numérica en la que hemos
codificado las alergias a antibióticos de esta forma: 0 = no alergias 1 = Penicilinas 2 =
Cefalosporinas 3 = Tetraciclinas 4 = Macrólidos 5 = Aminoglucósidos, etc. Si después
de introducir nuestros datos comprobamos que no tenemos ningún caso de alergia a
Macrólidos (valor 4), la recodificación automática nos recodificaría los casos de valor 5
a casos de valor 4, que ahora sería alergia a Aminoglucósidos (es decir nos eliminaría la
categoría sin casos).
En el caso de variables de cadena, nos permitiría crear una variable numérica de códigos
con tantas categorías como valores de texto diferentes haya en la variable original.
Tenemos que tener en cuenta que este procedimiento ordena por orden alfabético con
prioridad de las mayúsculas sobre las minúsculas.
Para realizar este procedimiento hay que seleccionar >Transformar >Recodificación
automática y posteriormente asignar un nombre a la nueva variable que va a contener
los valores recodificados. Obsérvese que se puede recodificar en orden ascendente ó
descendente.
3.2.4. CATEGORIZAR VARIABLES

Este procedimiento nos permite crear variables categóricas a partir de datos numéricos.
Es muy utilizado. Nos permite crear el número de categorías que queramos. Dado que
usa los percentiles para categorizar, las categorías creadas tienen un número
aproximadamente similar de casos. Por ejemplo si creamos 2 grupos, cada uno tendrá
aproximadamente la mitad de los casos. Hay que seleccionar >Transformar
>Categorizar variables y después seleccionar la variable ó variables que se desean
categorizar y el número de categorías.
Ejemplo 3.5: Se ha elegido la variable EDAD del fichero ENDOMETR.SAV y se han
creado 4 categorias.
Se creará al final del fichero una variable que indica a qué grupo pertenece el caso.
3.3. SELECCIONAR CASOS

A veces puede ser útil realizar procedimientos sólo en un subgrupo de nuestro fichero
de datos. Para seleccionar los casos deberemos indicar una condición que dichos casos
deberán cumplir para entrar en el subgrupo seleccionado. Deberemos pulsar > Datos >
Seleccionar casos. Vemos que este cuadro de diálogo nos da varias opciones.
La primera es la de seleccionar casos en base a una condición. Si la seleccionamos

aparecerá una nueva ventana en la que deberemos crear la condición de selección
usando otra/s variable/s, números, operadores y/o funciones.
Ejemplo 3.6: vamos a estudiar a las mujeres que tenían 40 años ó menos en el momento
de realizar nuestro estudio.
Si ejecutamos esta opción veremos que en el

Editor de datos aquellos casos que no cumplen el
criterio aparecen con una “tachadura” en su
número de caso. El primer caso que cumple la
condición y es seleccionado (edad = 40) es el caso
número 6.
La segunda opción nos permite seleccionar una muestra aleatoria de nuestro fichero. En
la ventana que aparece podremos elegir una muestra aproximada de un % de los casos ó
un número exacto de casos.
Otra posibilidad de seleccionar casos es a partir de un rango de los casos existentes (por
ejemplo del caso 100 al 200)
Todas estas opciones nos permiten elegir entre filtrar los casos no seleccionados
(eliminarlos de los procedimientos sin eliminarlos físicamente del fichero de datos) o
eliminarlos físicamente.
Si queremos volver a utilizar todos los casos en los análisis ó procedimientos hay que
seleccionar la opción Seleccionar todos los casos del cuadro de diálogo Seleccionar
casos.
3.4. ORDENAR CASOS

Este procedimiento nos permite reordenar nuestro archivo en función del orden de los
valores de una ó más variables de ordenación. Hay procedimientos estadísticos que
requieren una previa ordenación de los datos. A veces también útil para verlos (por
ejemplo orden de los datos según fechas de visita). Para realizar este procedimiento hay
que pulsar >Datos >Ordenar casos.
En la ventana que se abre hay que seleccionar la o las variables de ordenación e indicar
si se quiere que el orden sea ascendente ó descendente. Hay que tener en cuenta que si
realizamos una ordenación por múltiples variables cada variable se va a ordenar de
forma anidada dentro de los valores de la variable de ordenación previa. Así, por
ejemplo, si ordenamos por sexo (´h´y ´m´) y edad, el fichero va a presentar primero los
casos de los hombres (´h´) ordenados por edad y luego los casos de mujeres (´m´)
ordenados por edad.
3.5. PONDERAR CASOS

Utilidad que asigna pesos a los casos en el análisis estadístico en función de los valores
de una variable de ponderación (generalmente el número de casos con una combinación
de valores única). Es útil para ahorrar tiempo a la hora de crear determinados ficheros.
Ejemplo 3.7: Se realiza un estudio para determinar si existe asociación entre el grupo
sanguíneo y las úlceras duodenales. Se selecciona una muestra de 1301 pacientes y 6313
controles y se determina el grupo sanguíneo de cada uno de ellos. Los resultados son los
obtenidos en la siguiente tabla.
Grupo sanguíneo
O A B AB
Pacientes 698 472 102 29 1301
Controles 2892 2625 570 226 6313
3590 3097 672 255 7614
Podemos crear un fichero con las ocho posibles situaciones reflejadas en la tabla (hemos
utilizado como codificación 1 = Si, 0 = No) y una variable llamada por ejemplo
FRECUENC que será posteriormente nuestra variable de ponderación en el análisis.
Nuestros datos quedarían de esta forma en el Editor de datos:
Si seleccionamos la opción >Datos >Ponderar casos del menú principal podemos

especificar cual es la variable por la cual deseamos ponderar los casos del editor.
En este caso seleccionamos la variable FRECUENC, de forma que al analizar los

resultados en forma de una tabla de contingencia obtendríamos la tabla de partida en el
Visor de resultados.
Tabla de contingencia ENF * GRUPO
Recuento
GRUPO
A AB B O Total
ENF 0 2625 226 570 2892 6313
1 472 29 102 698 1301
Total 3097 255 672 3590 7614
Hay que tener en cuenta que si ponderamos un fichero de datos por una variable, dichos
datos están ponderados hasta que no le indiquemos explícitamente al programa que
queremos deshacer dicha ponderación.
3.6. CONTAR CASOS

Este procedimiento crea una variable que, para cada caso, cuenta las veces que se repite
un mismo valor ó valores en el cuadro de dialogo que aparece. Para realizar este
procedimiento hay que pulsar >Transformar >Contar apariciones, además hay que
seleccionar la lista de variables e indicar qué valores hay que contar.
Ejemplo 3.8: Tenemos una muestra de 15 personas que responden a un cuestionario de

salud que consta de 7 preguntas sobre hábitos diarios codificadas como 0 = Nunca, 1 =
A veces, 2 = A menudo, 3 = Siempre. Supongamos que queremos saber cuantos de los
hábitos no se dan nunca en cada uno de los pacientes de la muestra. Llamamos
CONTAR a la variable de destino, seleccionamos las 7 preguntas del cuestionario en
Variables numéricas y elegimos los valores que deseamos contar mediante el botón
Definir valores, añadiendolos a lista en Contar los valores.
De esta forma, una nueva variable llamada CONTAR que nos dice el número de veces
que cada paciente responde “Nunca” es añadida en último lugar al fichero de datos.
3.8. SEGMENTAR ARCHIVOS

Vamos a explicar brevemente esta opción que resulta muy útil cuando se desean realizar
análisis estadísticos en subgrupos de la muestra original. Segmentar un archivo es
“partirlo” en subgrupos para que se realicen los procedimientos estadísticos
consiguientes dentro de cada subgrupo. Esto nos permitiría por ejemplo, obtener unos
resultados separados por género, grupos de edad, estadio de la enfermedad, tratamiento

recibido, etc... Para segmentar un archivo, deberemos seleccionar >Datos >Segmentar
archivos. Se pueden utilizar hasta 8 variables de segmentación (creación de los
subgrupos) que pueden ser numéricas o cadena.
Es importante saber que para poder segmentarse, un archivo debe estar ordenado por las
variables de segmentación y en el orden en que aparecen en el cuadro. Si no está
previamente ordenado, utilizaremos la opción Ordenar archivo según variables de
agrupación. Sino, esto lo hará el SPSS automáticamente.
Hay dos opciones de presentación de resultados. La primera es derivada de seleccionar
la opción Comparar los grupos en el cuadro de dialogo. Esta opción nos presentará los
resultados de los análisis de los distintos subgrupos juntos, de forma que se puedan
comparar. Si realizamos un procedimiento gráfico, los gráficos también aparecen
contiguos. La segunda presentación es el resultado de seleccionar la opción Organizar
los resultados por grupos, que realiza los análisis también por subgrupos, pero nos
mostrará los resultados de los subgrupos por separado.
Ejemplo 3.9: Volvemos sobre los datos del ejemplo anterior. Tenemos una muestra de
15 personas que responden a un cuestionario de salud que consta de 7 preguntas sobre
hábitos diarios codificadas como 0 = Nunca, 1 = A veces, 2 = A menudo, 3 = Siempre.
Supongamos que deseamos analizar estos datos por sexo.
Las siguientes tablas muestran la frecuencia de cada una de las posibles respuestas a la
primera pregunta con las opciones Comparar los grupos y Organizar los resultados por
grupos, respectivamente.
P1
Porcentaje Porcentaje
SEXO Frecuencia Porcentaje válido acumulado
1 Válidos 0 1 16,7 16,7 16,7
1 3 50,0 50,0 66,7
2 1 16,7 16,7 83,3
3 1 16,7 16,7 100,0
Total 6 100,0 100,0
2 Válidos 0 3 33,3 33,3 33,3
1 2 22,2 22,2 55,6
2 2 22,2 22,2 77,8
3 2 22,2 22,2 100,0
Total 9 100,0 100,0
P1 a
Frecuencia Porcentaje válido acumulado
Válidos 0 1 16,7 16,7 16,7
1 3 50,0 50,0 66,7
2 1 16,7 16,7 83,3
3 1 16,7 16,7 100,0
Total 6 100,0 100,0
a. SEXO = 1
P1a
Frecuencia Porcentaje válido acumulado
Válidos 0 3 33,3 33,3 33,3
1 2 22,2 22,2 55,6
2 2 22,2 22,2 77,8
3 2 22,2 22,2 100,0
Total 9 100,0 100,0
a. SEXO = 2
La opción Analizar todos los casos, no crear los subgrupos, nos permite volver a
utilizar el fichero de datos completo, sin segmentar.
Procedimientos descriptivos básicos Bioestadística con SPSS
Tema 4: PROCEDIMIENTOS DESCRIPTIVOS BÁSICOS
4.1. INTRODUCIÓN
A la hora de realizar cualquier análisis estadístico de datos con SPSS debemos seguir
unos pasos muy simples y básicos. En primer lugar, debemos introducir los datos en el
Editor de datos, como se ha explicado en el tema 2. A continuación debemos
asegurarnos de que tanto las variables recogidas, como los valores de dichas variables
están correctamente definidos, codificados e introducidos en el editor. Posteriormente,
seleccionaremos un procedimiento del menú principal para crear tablas, calcular
estadísticos o generar gráficos. El siguiente paso consiste en seleccionar las variables a
las que se desea aplicar los procedimientos seleccionados. Finalmente, se ejecuta el
procedimiento y se interpretan los resultados obtenidos.
Comenzaremos describiendo un problema típico que requiere una solución estadística y
utilizaremos este ejemplo para parte del lenguaje subyacente al campo de la estadística.
Un investigador, estudiando una enfermedad del corazón, en personas mayores de 18
años, ha identificado cuatro factores potencialmente asociadas con el desarrollo de la
misma: la edad, el peso, el número de cigarrillos fumados por día y los antecedentes
familiares de enfermedad cardiaca. El investigador quiere acumular pruebas que
confirmen estos factores como contribuyentes al desarrollo de la enfermedad, o
demuestren que no son importantes. ¿Cómo debe proceder?
Aquí se plantea un problema estadístico. ¿Qué características lo identifican como tal?
Simplemente estas:
1. El problema se asocia a un grupo grande de objetos (en esta caso, personas) acerca
de las cuales van a hacerse inferencias. Este grupo de objetos se llama población.
2. Ciertas características de los miembros de la población son de particular interés. El
valor de cada una de estas características puede cambiar de un individuo a otro
dentro de la población. Estas características son las que hemos definido como
variables.
3. La población es demasiado grande para ser estudiada en su totalidad. Por tanto,
debemos hacer inferencias sobre la población basadas en lo observado estudiando
solo una porción, o muestra, de individuos de la población.
En el uso de las técnicas estadísticas siempre se trabaja en dos mundos. El mundo ideal
está al nivel de la población y es de naturaleza teórica. Es el mundo que desearíamos
ver. El mundo de la realidad es el mundo de la muestra. Este es el nivel al que realmente
operamos. Esperamos que las características de la muestra reflejen bien las
características de la población. Es decir, tratamos nuestra muestra como un
microcosmos que refleja a toda la población.
Una vez que los datos han sido recogidos, introducidos y codificados, el primer paso en
todo estudio que conlleve el análisis estadístico de unos datos provenientes de una
muestra es la propia descripción de los individuos de la muestra. Los procedimientos
descriptivos se dividen en tres grandes grupos: tablas de frecuencias, estadísticos
descriptivos y gráficos.
4.2. TIPOS DE VARIABLES

Antes de dar más detalle sobre como se realiza cada uno de los procedimientos
descriptivos en SPSS, vamos a describir los tipos de variables que podemos encontrar
en un fichero de datos. Conocer que tipo de variable estamos analizando es fundamental
para poder realizar un análisis estadístico apropiado de la misma.
Cuando recogemos datos sobre un fenómeno (por ejemplo la edad de los pacientes)
estamos obteniendo distintos valores de una variable aleatoria, variable porque cambia
de valor y aleatoria porque su comportamiento depende del azar y es impredecible.
Todo fenomeno o experimento aleatorio puede llevar ligadas a él muchas variables
aleatorias. En general, hay dos tipos de variables: categóricas y numéricas. Los datos
categóricos pueden ser de tipo cualitativo (por ejemplo el sexo) o de tipo cuantitativo
(por ejemplo el nivel de estudios); mientras que los datos numéricos, como su propio
nombre indica, tienen siempre carácter cuantitativo.
4.2.1. DATOS CATEGÓRICOS
Las variables categóricas representan datos con un número limitado de valores posibles
ó categorías. Aquí los números no designan una cantidad numérica sino que son códigos
numéricos. En su nivel más básico tendríamos las variables dicotómicas con sólo 2
posibles categorías (por ejemplo Si/No). Si pueden presentar más de 2 categorías
hablaríamos de variables politómicas (por ejemplo grupo sanguíneo).
Para introducir este tipo de datos en el editor de datos, podemos definir la variable como
cualquiera de los siguientes tipos:
a) Variable de cadena (alfanuméricas)
b) Variable numérica (asumiendo que los números actúan simplemente como códigos).
Los datos categóricos pueden a su vez ser de tipo nominal (no hay ninguna relación de
orden natural entre sus categorías) ú ordinal (sus categorías se pueden ordenar en
función de algún criterio como por ejemplo datos sobre nivel de estudios).
4.2.2. DATOS NUMÉRICOS
Las variables numéricas representan datos que generalmente pueden tomar muchos
valores y además, sus valores se pueden manipular aritméticamente (sumar, restar,
etc..). Además de poder ordenar sus valores de forma natural, el concepto de distancia
entre valores tiene sentido (por ejemplo, si la variable es índice de masa corporal, la
diferencia en masa corporal existente entre un individuo de tiene 28 y uno que tiene 26
es la misma que la que existe entre un individuo que tiene 32 y uno que tiene 30).
Generalmente se diferencia entre variables discretas (sólo pueden tomar como valores
números enteros como por ejemplo, número de ingresos hospitalarios) y variables
continuas (pueden tomar infinitos valores entre dos límites cualquiera (por ejemplo
nivel plasmático de homocisteína)).
Para introducir este tipo de datos en el editor de datos, debemos definir la variable como
numérica.
Ejemplo 4.1: Estudiando una enfermedad del corazón, en personas mayores de 18 años,
un investigador ha identificado cinco factores potencialmente asociados con el
desarrollo de la misma: el sexo, la edad, el peso, el número de cigarrillos fumados por
día y los antecedentes familiares de enfermedad cardiaca.
Las variables de interés en este experimento son el sexo, la edad y el peso del paciente,
el número de cigarrillos fumados por día y la historia familiar.
El sexo del paciente es una variable categórica de tipo nominal, más concretamente
dicotómica. El número de cigarrillos fumados por día es una variable numérica de tipo
discreto, su conjunto de valores posibles es {0,1,2,3,…}. Si el historial familiar se
estudia registrando el número de padres y abuelos que experimentan dolencias cardiacas
entonces esta variable es también numérica de tipo discreto. El conjunto de sus posibles
valores es {0, 1, 2, 3, 4, 5, 6}. Las variables edad y peso son numéricas y continuas. Por
ejemplo, la edad de una persona puede tomar cualquier valor entre 18 y 100 años,
intervalo continuo de tiempo y la variable peso de una persona puede situarse en
cualquier lugar entre 40 y, quizá, 150 kg.
4.3. TABLAS DE FRECUENCIAS

La tabla de frecuencias es un procedimiento descriptivo que se utiliza principalmente en
la descripción de datos categóricos. También, aunque con menos frecuencia, puede
utilizarse en la descripción de datos numéricos de tipo discreto, siempre y cuando el
número de valores que se alcanza sea bajo.
La forma de realizar tablas de frecuencias en SPSS es seleccionar >Analizar
>Estadísticos descriptivos >Frecuencias.
Una vez seleccionado el procedimiento, un cuadro de diálogo nos pedirá que

indiquemos de qué variable/s queremos la tabla de frecuencias. La opción Mostrar
tablas de frecuencias del cuadro de dialogo debe estar seleccionada.
Si pulsamos en el botón Aceptar se ejecutará el procedimiento y se activará el Visor de

resultados de SPSS.
Este procedimiento nos proporciona como resultado una lista ordenada de los valores
que toma la variable, junto con la frecuencia de aparición de estos valores, también
denominada frecuencia absoluta, y el porcentaje que esta frecuencia supone del total
de la muestra, frecuencia relativa. Además, se pueden observar dos columnas más
denominadas porcentaje válido y porcentaje acumulado. El porcentaje válido representa
el porcentaje que la frecuencia correspondiente supone del total de valores válidos que
toma la variable, excluyendo los valores faltantes. Si no hay valores faltantes o estos no
han sido codificados como tal, el porcentaje válido será igual al porcentaje. El
porcentaje acumulado representa la suma del porcentaje correspondiente y todos los
precedentes.
Ejemplo 4.2: Supongamos que tenemos una muestra de 276 pacientes intervenidos de
prótesis total de cadera. Para cada paciente se recogen el número de registro, el sexo, la
edad en 3 categorías (<50, 50-70, >70) el nivel de dolor en 3 categorías (leve,
moderado, grave), el hospital en el que ha sido intervenido y el riesgo quirúrgico (alto,
bajo). Vamos a calcular las tablas de frecuencias de las variables SEXO y DOLOR,
siguiendo los pasos que se acaban de establecer.
Vamos a familiarizarnos con el Visor de Resultados de SPSS. Este visor se activa
siempre al ejecutar cualquier procedimiento y es donde se nos muestran los resultados
obtenidos de los análisis solicitados. En él veremos dos paneles: el izquierdo, llamado
Panel de titulares, es como un mapa que nos guía sobre el contenido y estructura del
panel derecho, Panel de contenidos. En este panel veremos los resultados del
procedimiento en forma de tablas de frecuencias para las variables seleccionadas. Se
puede elegir entre ver las categorías con sus valores reales ó con las etiquetas de valor
asignadas.
En este ejemplo vemos que la proporción de hombres y mujeres en la muestra es la

misma; mientras que el nivel de dolor es leve en un 4%, moderado en un 20% y grave
en un 76%.
4.4. ESTADISTICOS
Una medida descriptiva relacionada con una variable aleatoria, cundo la variable se
considera sobre toda la población, se denomina parámetro. Los parámetros se
representan generalmente mediante letras griegas y no es posible obtener su valor
exacto salvo que sean estudiados todos los miembros de la población. Sin embargo,
podemos utilizar métodos estadísticos para aproximarnos a su valor basándonos en los
datos obtenidos a partir de una muestra extraída de la población. Una medida
descriptiva relacionada con una variable aleatoria, cuando la variable sólo se considera
sobre una muestra se denomina estadístico. Los estadísticos se utilizan en la
descripción de datos numéricos y sirven también como aproximación a los parámetros
correspondientes a la población.
4.3.1. ESTADÍSTICOS DE TENDENCIA CENTRAL
Son medidas que pretenden resumir en un único valor la localización de los datos y por
lo tanto su posición central. El más conocido es la media aritmética (suma de todos los
valores dividido por el número de datos), representada mediante el símbolo x . Aunque
según el tipo de procedencia y características de los datos se pueden usar otras medias:
media geométrica (por ejemplo para porcentajes), media armónica (para velocidades,
rendimientos, etc.).
También se utiliza con frecuencia la mediana ó valor que está situado en el medio de
todos los valores ordenados. Si n es impar, la mediana será aquella observación que
ocupa el lugar central de todos los valores observados y ordenados de menor a mayor.
Sin embargo, si n es par, la mediana se calculará como el promedio de las dos
observaciones centrales. Este es un estadístico descriptivo muy resistente a la existencia
de valores extremos, mientras que la media aritmética no lo es.
4.3.2. ESTADÍSTICOS DE POSICIÓN
Hemos visto que la mediana es el valor de la variable que deja un 50% de los valores a
cada uno de sus lados. Es decir, es el valor central con respecto a la posición. Además
de la mediana hay otros estadísticos que representan la posición de la variable.
Los valores de la variable que nos dividen la muestra ordenada en 100 pedazos iguales
se denominan percentiles. Es decir, Pi o el percentil i-ésimo es el valor de la variable
que me deja a su izquierda el i% de los valores de la muestra. Los más comúnmente
utilizados son los cuartiles y los deciles.
4.3.3. ESTADÍSTICOS DE DISPERSIÓN O VARIABILIDAD
Una característica que no está siendo detectada por los estadísticos de tendencia central
es la variabilidad. Hay alguna fluctuación en las observaciones y no es siempre la
misma. Algunas están próximas a la media; otras no. Necesitamos una medida que
cuantifique esta variabilidad o dispersión. Queremos un estadístico con la propiedad de
que, cuando los datos puntuales estén agrupados cerca de la media, su valor sea
pequeño; y que, cuando los datos puntuales están distribuidos de manera más amplia,
muchos de ellos alejados de la media, su valor sea grande. La manera más lógica de
medir la variabilidad respecto de la media, sería determinar la distancia de cada dato a la
media (x − x ), y sumar estas distancias. Este razonamiento no funciona, puesto que
estas diferencias pueden ser positivas o negativas dependiendo si los datos están a la
derecha o a la izquierda de la media, de forma que al sumarlos se van anulando unos
con otros. El resultado es que valores muy alejados de la media podrían dar una
variabilidad nula, si este alejamiento se compensa hacia ambos lados de la media. La
forma habitual de evitar este problema es elevar las diferencias al cuadrado. Para
asegurarnos de que el tamaño de la muestra no influye en la medida de variabilidad, se
trabaja con el promedio de las diferencias al cuadrado en vez de con la suma de las
diferencias al cuadrado directamente. Este estadístico de variabilidad se denomina
varianza y se representa por s2. A menudo se utiliza su raíz cuadrada positiva,
denominada desviación estándar, con el fin de volver a establecer la unidad de medida
original de la variable.
Existen medidas de dispersión muy simples, como el rango, que se define como la
diferencia entre el mayor y el menor de los valores observados, y el rango
intercuartílico, que se define como la diferencia entre el tercer y el primer cuartil y se
caracteriza por ser la longitud del intervalo que contiene el 50% de los datos situados en
el centro. Menos utilizada, aunque útil para comparar la variabilidad entre variables
medidas en distintas unidades es el coeficiente de variación, también denominado
dispersión relativa o desviación estándar relativa (RSD%), que es una medida
adimensional que se define como el cociente entre la desviación estándar y la media
aritmética, habitualmente multiplicada por 100.
4.3.4. ESTADÍSTICOS DE FORMA
En general, los dos estadísticos de forma que más se usan (aunque no mucho) son el
coeficiente de asimetría que nos habla de si la distribución de los datos es simétrica
(coeficiente = 0), asimétrica a la derecha (coeficiente >0) ó asimétrica a la izquierda
(coeficiente <0) y el coeficiente de curtosis que nos indica si hay gran agrupación de
datos hacia el centro (distribución leptocúrtica) ó si hay agrupación en los extremos
(platicúrtica).
4.3.5. CÁLCULO DE ESTADÍSTICOS CON SPSS
La forma de calcular estadísticos en SPSS es la misma que la utilizada para obtener la
tabla de frecuencias, seleccionar >Analizar >Estadísticos descriptivos >Frecuencias.
Un cuadro de diálogo nos pedirá que indiquemos de qué variables queremos calcular los
estadísticos. El botón inferior izquierdo denominado Estadísticos nos abre un nuevo
cuadro de dialogo que nos permite seleccionar los estadísticos que deseamos calcular
para las variables seleccionadas. No olvidemos que el cálculo de estadísticos solo tiene
sentido para variables numéricas.
Ejemplo 4.3: Supongamos que tenemos una muestra de 89 pacientes sometidos a una
intervención quirúrgica. Se recogen para cada paciente el número de identificación, el
peso, la altura, el analgesico utilizado (1 = Nolotil, 2 = Proparacetamol, 3 = Adolonta) y
el tiempo de duración de la intervención en minutos. Vamos a calcular estadísticos
descriptivos de las variables PESO, ALTURA y TIEMPO.
Se seleccionan como estadísticos de tendencia central la media y la mediana, como
estadísticos de dispersión la varianza y la desviación estándar, como estadísticos de
posición los cuartiles y los percentiles 10 y 90 (estos últimos hay que incluirlos
específicamente y añadirlos a la lista) y como estadísticos de forma el coeficiente de
asimetría y la curtosis. Los resultados escogidos aparecen en el visor de resultados en
una tabla.
Estadísticos
PESO ALTURA TIEMPO

N Válidos 89 89 89
Perdidos 0 0 0
Media 71,40 1,6812 57,02
Mediana 70,00 1,7000 45,00
Desv. típ. 12,450 ,09400 34,466
Varianza 154,994 ,00884 1187,909
Asimetría ,169 -,006 1,540
Error típ. de asimetría ,255 ,255 ,255
Curtosis -,915 -,157 2,774
Error típ. de curtosis ,506 ,506 ,506
Percentiles 10 54,00 1,5500 20,00
25 62,00 1,6000 35,00
50 70,00 1,7000 45,00
75 81,50 1,7500 75,00
90 90,00 1,8000 100,00
Como ejemplos de interpretación de los resultados mencionamos algunos: Los 89

pacientes intervenidos tienen un peso medio de 71.4 kilogramos (desviación estándar de
12.45) y una altura media de 1.68 centímetros (desviación estándar de 0.09); la duración
media de las intervenciones es de 57 minutos (desviación estándar de 34.47). Un 10%
de los pacientes está por debajo de 54 kilos, o por encima de 1.80 centímetros. Solo un
25% de los pacientes tuvo una intervención de menos de 35 minutos.
4.5. GRÁFICOS
Aunque toda la información necesaria en el proceso de descripción de una variable
viene dada por la tabla de frecuencias o los estadísticos, a menudo es más conveniente
utilizar métodos gráficos con el fin de obtener una rápida descripción de los datos. Los
gráficos nos proporcionan una información general, rápida y fácil de interpretar. Para
que un gráfico sea bueno, debe poder entenderse sin necesidad de recurrir al texto. Para
ello es necesario que esté debidamente etiquetado, que aparezcan las unidades en los
ejes, etc.
La forma más sencilla y rápida de obtener gráficos descriptivos simples es nuevamente
a través de >Analizar >Estadísticos descriptivos >Frecuencias. Un cuadro de diálogo
nos pedirá que indiquemos de qué variables queremos los gráficos. El botón inferior
derecho denominado Gráficos nos abre un nuevo cuadro de dialogo que nos permite
seleccionar los gráficos que deseamos calcular para las variables seleccionadas.
Una forma más general de realizar todo tipo de gráficos es a través de la opción
>Gráficos del menú principal. Esta opción nos permite seleccionar el gráfico deseado
de entre todas las opciones gráficas que oferta el programa SPSS.
En cualquier caso, hay muchos métodos gráficos. Continuando con el objetivo de
descripción de los datos planteado en este capítulo, aquí mostraremos algunos de ellos,
en función de si la variable que queremos describir es categórica, numérica discreta o
numérica continua. En capítulos posteriores, se profundizará más sobre algunos otros
gráficos más útiles en procedimientos estadísticos más complejos.
4.5.1 VARIABLE CATEGÓRICA
Diagrama de barras: Se representan las modalidades en un eje y las frecuencias
(absolutas o relativas) en el otro mediante barras. Puede ser vertical u horizontal.
Diagrama de sectores: Se divide el área de un círculo en sectores proporcionales a las
frecuencias (absolutas o relativas) de las modalidades.
Ejemplo 4.4: Volviendo a los datos de pacientes sometidos a una prótesis de cadera en
el ejemplo 4.2, veamos una representación grafica de la variable EDAD. De las dos
opciones disponibles en SPSS escogemos el diagrama de barras, vemos que podemos
realizarlo para las frecuencias (opción utilizada en el ejemplo) para los porcentajes.
Los resultados se muestran el visor de resultados en modo de gráfico. Vemos que los
menores de 50 son menos de 10, mientras que entre 50 y 70 años hay alrededor de 120
personas y con más de 70 años hay más de 140 personas.
EDAD
160
140
120
100
80
60
40
Frecuencia
20
0
1 2 3
EDAD
Obsérvese que los valores de la variable edad que aparecen en el eje horizontal son
códigos numéricos: 1 (< 50), 2 (50-70) y 3 (> 70). Sería deseable tener estos códigos
etiquetados en la fase de introducción de datos y creación de variables y de esta forma el
gráfico mostraría las etiquetas asignadas a los valores de la variable.
4.5.1 VARIABLE NUMÉRICA DISCRETA
Gráfico de barras: Al igual que en el diagrama de barras, se representan las
modalidades en un eje y las frecuencias (absolutas o relativas) en el otro mediante
barras. Las diferencias con el anterior son que al ser la variable cuantitativa las
modalidades deben estar ordenadas, las barras deben ser de la misma anchura y la
distancia de separación entre ellas debe ser la misma.
El SPSS no hace diferenciación entre el diagrama y el gráfico de barras, utiliza los
criterios del gráfico de barras para ambos.
4.5.1 VARIABLE NUMÉRICA CONTINUA
Histograma: Se utiliza cuando los datos están agrupados en intervalos. Si no es así,
SPSS realiza una agrupación de los datos en intervalos de igual longitud. Las opciones
existentes permiten controlar la agrupación, fijando bien el número de intervalos o bien
la longitud de cada intervalo. Se construye un sistema de rectángulos sobre los ejes,
donde la base son los valores la variable y cada rectángulo tiene un área proporcional a
la frecuencia (absoluta o relativa) del intervalo al que representa.
Gráfico de tallos y hojas (stem-and-leaf): Es un híbrido entre una tabla y un gráfico,
ya que muestra los valores numéricos de la variable, pero los perfiles son parecidos a un
histograma. Este gráfico se realiza con la opción de SPSS >Analizar >Estadísticos
descriptivos >Explorar.
Ejemplo 4.6: Volviendo a los datos del ejemplo 4.3 sobre pacientes intervenidos
quirúrgicamente, realizamos un histograma y un diagrama de tallos y hojas de los datos
de la variable TIEMPO.
Para la creación del histograma, vemos como el SPSS ha creado los grupos para la
variable TIEMPO automáticamente, ha escogido intervalos de longitud 20. Además, nos
ofrece también la media y la desviación estándar de la variable, así como el tamaño de
la muestra.
TIEMPO
40
30
20
Frecuencia
10
Desv. típ. = 34,47
Media = 57,0
0 N = 89,00
20,0 60,0 100,0 140,0 180,0
40,0 80,0 120,0 160,0 200,0
TIEMPO
TIEMPO Stem-and-Leaf Plot
Frequency Stem & Leaf
2,00 0 . 11
28,00 0 . 2222222222233333333333333333
25,00 0 . 4444444444444444455555555
16,00 0 . 6666666667777777
6,00 0 . 889999
6,00 1 . 000001
2,00 1 . 22
4,00 Extremes (>=135)
Stem width: 100

Each leaf: 1 case(s)
Estos gráficos nos indican que la distribución del tiempo de duración de la intervención
es sesgada a la derecha (recordamos que su coeficiente de asimetría es 1.54)
Una vez que se ha creado un gráfico, uno de los aquí descritos o cualquier otro, se
pueden editar muchos de sus atributos para cambiar su aspecto. Por ejemplo, se pueden
cambiar el título, el etiquetado, los colores, las fuentes, etc…Para editar un gráfico en el
visor, solo hay que posicionarse sobre él y pulsar dos veces el botón izquierdo del ratón.
El gráfico aparecerá entonces en una ventana de edición gráfica. Se puede editar el
gráfico con los menús, con la barra de herramientas o pulsando doblemente sobre el
objeto que desee modificar.
Ejemplo 4.7: Volviendo a los datos del ejemplo 4.6, supongamos que deseamos editar el
histograma anterior para cambiar la longitud de los intervalos de la variable TIEMPO.
Si pulsamos doblemente sobre el gráfico en el mismo visor de resultados, se abre una
ventana de edición de gráficos.
Pulsando de nuevo doblemente sobre el eje horizontal, que es el que deseamos

modificar, se abre el siguiente cuadro de dialogo, donde podemos escoger los intervalos
de forma personalizada.
Podemos fijar el número de intervalos deseado o la longitud de los intervalos, así como
el límite inferior y superior del primer y último intervalo respectivamente, en este caso
escogemos realizar el gráfico con 8 intervalos. Asimismo podemos modificar cualquiera
de los atributos del gráfico editado. En este caso hemos decidio también eliminar la
leyenda con los estadísticos y el resultado es el siguiente.
TIEMPO
50
40
30
20
Frecuencia
10
0
15,0 45,0 75,0 105,0 135,0 165,0 195,0 225,0
TIEMPO
SPSS dispone también de una opción para crear gráficos interactivos mediante la
selección de >Gráficos >Interactivos.
4.6. DESCRIPCIÓN GLOBAL DE UN FICHERO DE DATOS

Los datos que se desean analizar, habitualmente corresponden a un conjunto de
variables o características de los sujetos a estudios y no a una única variable aislada.
Esta es la razón por la cual la estadística descriptiva correspondiente a un fichero de
datos se presenta normalmente como una tabla acompañada de uno o dos gráficos, que
resuman de una forma adecuada toda la información contenida en el fichero de datos a
estudio. La decisión sobre qué medidas, estadísticos o valores de la tabla deben incluirse
en esta estadística descriptiva debe ser tomada tras una reflexión concienzuda y
basándose principalmente en dos criterios: objetivo del estudio y tipos de variables.
A la hora de presentar resultados a través de tablas, gráficos o estadísticos es muy
importante que se presente la mayor información posible, pero de la forma más clara
posible. Si lo que se presenta es una tabla o un gráfico estos deben ir perfectamente
etiquetados, con títulos y etiquetas oportunos. No hay que olvidar nunca que una tabla o
gráfico deben ser informativos por sí solos, sin necesidad de recurrir al texto, de otra
forma no cumplirían su objetivo. Cuando lo que se presentan son estadísticos hay que
evitar que un solo número, sacado de contexto distorsione la naturaleza real de los
datos.
En la interpretación de los resultados obtenidos es importante determinar cuantas cifras
decimales deben darse en la respuesta final. En la mayoría de los casos no es necesario,
ni deseable, escribir los resultados con una precisión de 8 cifras decimales. Un criterio
bastante difundido es utilizar una cifra decimal más que los datos para los estadísticos
de tendencia central y posición y dos más para los estadísticos de dispersión y forma. La
última cifra decimal se calculará siempre por redondeo y preferentemente al finalizar la
serie de cálculos realizados, con el fin de no acumular errores de redondeo.
Ejemplo 4.8: Supongamos que deseamos realizar un análisis descriptivo completo de la
muestra de 89 pacientes intervenidos quirúrgicamente que hemos descrito en el ejemplo
4.3. Basándonos en las tablas de frecuencias y estadísticos calculados, lo razonable sería
presentar una única tabla descriptiva de los individuos, con los datos que se consideren
oportunos para cada variable. Resumiendo la información aportada, parece lógico
utilizar la frecuencia y porcentaje para describir las variables categóricas. Para las
variables numéricas continuas se utilizará una medida de tendencia central y otra de
dispersión, siendo las más comúnmente utilizadas la media y la desviación estándar. Sin
embargo, si la distribución de una variable continua es muy sesgada es más correcto
utilizar adicionalmente la mediana y el rango intercuartílico como medidas de tendencia
central y dispersión respectivamente. Si ocurre esto último, la descripción se puede
completar con un histograma de la variable continua sesgada o con su coeficiente de
asimetría. Un ejemplo de resultados descriptivos de la muestra aquí analizada serían la
siguiente tabla y gráfico.
n = 89
Peso (kg): x (DE) 71.4 (12.45)
Altura (m): x (DE) 1.68 (0.094)
Duración de la IQ (min):
x (DE) 57.02 (34.47)
Me (RI) 45 (40)
Analgesia: n (%)
Nolotil 28 (31%)
Proparacetamol 31 (35%)
Adolonta 30 (34%)
IQ = Intervención qirúrgica
DE = Desviación estándar; RI = Rango intercuartílico
Duración de la Intervención Quirúrgica
(Coeficiente de asimetría = 1.54)
50
40
30
20
Número de pacientes
10
0
15,0 45,0 75,0 105,0 135,0 165,0 195,0 225,0
En este capítulo se han descrito los procedimientos estadísticos descriptivos, analíticos

y gráficos más comunes. La opción de SPSS que se ha utilizado para ello es >Analizar
>Estadísticos descriptivos >Frecuencias. Por supuesto, existen muchas más medidas
descriptivas que las aquí expuestas. SPSS dispone además de otros procedimientos de
análisis descriptivo de datos que se recomienda explorar. Por ejemplo, las opciones
>Descriptivos y >Explorar del menú >Analizar >Estadísticos descriptivos nos ofrecen
resultados adicionales a los descritos.
Inferencia para una muestra Bioestadística con SPSS
Tema 5: INFERENCIA PARA UNA MUESTRA
5.1. INTRODUCCIÓN
Toda investigación estadística se propone estudiar un cierto carácter (variable) que se
presenta en los individuos de una población determinada. Cuando se tiene información
de todos y cada uno de los elementos de la población, se dice que se está realizando un
censo. Sin embargo, ello no siempre es posible o conveniente. Unas veces porque la
población es infinita; otras, porque se trata de pruebas destructivas; a veces, porque la
población está constituida por elementos potenciales (por ejemplo, el estudio de la
proporción de enfermos que sufren efectos secundarios al ser tratados con un
medicamento); en la mayoría de las ocasiones, porque cada observación conlleva un
"coste".
Como hemos mencionado anteriormente, este tipo de consideraciones lleva al
investigador a tomar información de una sola parte de la población, llamada muestra.
Los problemas que se plantean de forma inmediata son los siguientes:
1. ¿Cómo se obtienen conclusiones acerca de la población a partir de los datos de la
muestra?
2. ¿Qué grado de fiabilidad poseen dichas conclusiones?
3. ¿Hasta qué punto los valores muestrales son representativos de los poblacionales?
La metodología básica de la Estadística es, por tanto, la inducción. A la hora de
interpretar los resultados hay que tener en cuenta que no se trata de resultados
"seguros", sino que tienen un cierto "grado de confianza". La Inferencia Estadística es
el conjunto de métodos destinado a obtener esos resultados y a medir su grado de
confianza.
Dentro de la Inferencia Estadística podemos distinguir dos grandes áreas: estimación y
contraste de hipótesis. La estimación consiste en aproximar los parámetros de la
población mediante los valores de los estadísticos obtenidos en la muestra. En el
contraste de hipótesis, se realiza una hipótesis sobre uno o varios parámetros de la
población y se construye un método para, en función de los valores de la muestra,
aceptar o rechazar dicha hipótesis.
5.2. ESTIMACIÓN
Para que una muestra sea válida debe ser representativa de la población. Esto se
garantiza mediante la selección de una muestra aleatoria simple. Una muestra aleatoria
simple es un conjunto de elementos de la población, tal que cada elemento es elegido de
manera independiente y la probabilidad de ser elegido es la misma para todos los
individuos.
La estimación consiste en aproximar los parámetros de la población por los valores de
los estadísticos en la muestra. Los parámetros suelen representar características de la
población y son cantidades desconocidas a priori, se representan mediante letras
griegas. Los estadísticos sin embargo, como hemos explicado en el capítulo anterior,
son cantidades numéricas que se calculan a partir de los valores de la variable obtenidos
en una muestra, se representan mediante letras latinas.
Si la estimación consiste en atribuir un único valor al parámetro, estamos realizando una

estimación puntual. El problema que presenta la estimación puntual de un parámetro
reside en que no garantiza ni mide la precisión de la estimación. Sólo la bondad de
ajuste y el tamaño de la muestra pueden proporcionar una mayor o menor confianza en
la estimación obtenida. Por esta razón es necesario dar, junto con la estimación, una
medida del grado de confianza que nos merece. Esto se consigue mediante un intervalo
de confianza que nos proporcione unos límites entre los cuales confiamos se encuentre
el valor desconocido del parámetro. Esta confianza de inclusión se mide mediante un
porcentaje, siendo el más comúnmente utilizado el 95%. Es decir, si obtuviéramos un
gran número de intervalos con el 95% de confianza, tenemos la seguridad de que el 95%
de ellos contendrán el valor exacto del parámetro desconocido que deseamos estimar;
debido al azar, el 5% no incluirá este valor.
Un intervalo de confianza para un parámetro θ de una población es de la forma (L1, L2),
donde L1 y L2 son funciones de los valores muestrales, que únicamente serán números
cuando hayamos obtenido una muestra y sustituido sus valores en las funciones L1 y L2.
En el proceso de construcción de un intervalo de confianza se distinguen dos etapas, una
teórica y otra práctica. En la etapa teórica, se establece formalmente un intervalo
aleatorio (L1, L2), de manera que P(L1 ≤ θ ≤ L2) = 1 − α. Es decir, podemos decir que la
probabilidad de que el intervalo contenga al valor real del parámetro θ es 1 − α, que se
denomina nivel de confianza. El nivel de confianza deseado es controlado por el
investigador. En la etapa práctica, se toma una muestra de la población a la que
pertenece el parámetro a estudio, y sustituidos los valores muestrales en L1 y L2
obtenemos dos números. Una vez realizada tal sustitución no es posible hablar de la
probabilidad de que el valor desconocido del parámetro se encuentre comprendido en el
intervalo que se acaba de calcular, ya que el parámetro estará o no en el intervalo. No
hay que olvidar que el concepto de aleatoriedad no es del parámetro, sino del intervalo.
Si seleccionáramos muchas muestras de la población a estudio, tendríamos un intervalo
por cada muestra seleccionada; sin embargo, el valor del parámetro será desconocido,
pero único.
En las siguientes secciones, procedemos a estimar los parámetros más comúnmente
utilizados para describir una población: la media y la proporción.
5.2.1. ESTIMACIÓN DE LA MEDIA
Supongamos que X es una variable aleatoria continua y que queremos estimar su media
o valor esperado, representado por la letra griega µ. Lo más razonable es utilizar el valor
de la media aritmética obtenida en la muestra como estimación puntual de la media
poblacional desconocida. Es decir, el estimador puntual de la media µ es la media
aritmética x . Esta misma denominación para dos conceptos diferentes, puede llegar a
ser confusa, sin embargo y aunque parezca redundante, es importante conocer la
diferencia entre ambos conceptos.
El sentido común señala X como el estimador más lógico para µ. Además, se puede
probar que este estimador tiene también buenas propiedades matemáticas. En particular
que en un muestreo repetido de una población con media µ los valores de X fluctuarán
alrededor de µ. También se puede demostrar que para muestras de tamaño grande, los
valores de X varían muy poco de una muestra a otra. Así, los valores de X están
centrados en µ, valor que se pretende estimar a través de este estadístico, y para
muestras grandes, se espera que la mayoría de los valores observados caigan cerca de µ.
Estas propiedades se resumen diciendo que X es el estimador insesgado de mínima
varianza de µ. Esto significa que si se dispone de una muestra de tamaño moderado y se

estima µ por medio de x , es probable que esta estimación sea bastante precisa.
El cálculo de un intervalo de confianza para la media, requiere establecer condiciones
específicas sobre la población a estudio. Supongamos que disponemos de una variable
aleatoria cuya distribución es normal. Fijado el nivel de confianza en el 95%, el
intervalo de confianza para la media poblacional µ viene dado por la siguiente
expresión.
 σ σ 
I µ0.95 =  x − 1.96 ⋅ , x + 1.96 ⋅ 
 n n
Si generalizamos este proceso a un nivel de confianza cualquiera obtenemos el
intervalo de confianza del (1 − α)100% de µ de la siguiente manera:
 σ σ 
I µ1−α =  x − z α / 2 ⋅ , x + zα / 2 ⋅ 
 n n
donde zα/2 representa el valor crítico de la distribución normal estandarizada. Es decir el
valor que deja hacia su derecha un área de α/2 bajo la curva normal. La tabla 1 muestra
los valores críticos de la distribución normal estandarizada para diferentes niveles de
significación.
El intervalo de confianza de µ se ha deducido suponiendo que la variable aleatoria X es
normal. Si no se satisface esa condición, el intervalo dado puede emplearse siempre y
cuando la muestra no sea demasiado pequeña. Este resultado se deduce a partir del
Teorema Central del Límite. Este teorema nos dice que la suma de variables aleatorias
independientes e idénticamente distribuidas es asintóticamente normal
independientemente de la distribución de las variables originales. La media muestral
está definida como combinación lineal de las variables de partida, por tanto como suma
de variables aleatorias. Consideraremos que la muestra es suficientemente grande para
valores de n ≥ 30.
En el intervalo anterior, observamos que el valor del parámetro σ, que representa la
desviación estándar de la población debe ser conocido. Suponer que siendo desconocida
la media de la población, se va a conocer la desviación estándar es, en términos
prácticos, una hipótesis nada realista. En la mayor parte de los casos, el estudio
estadístico que interesa se hace por primera vez, por lo que no hay forma de conocer
previamente cuál es la media o la desviación estándar de la población en cuestión.
Consideremos ahora el problema más real, hacer inferencia sobre la media de una
población normal cuando la desviación estándar de la población es también
desconocida. En este caso, la fórmula anterior se sustituye por una similar, donde la
desviación estándar de la población se estima mediante el valor de la desviación
estándar obtenido en la muestra.
 s s 
I µ1−α =  x − t α / 2;( n −1) ⋅ , x + t α / 2;( n −1) ⋅ 
 n n
Donde tα/2; (n –1) representa el valor de una variable aleatoria con distribución t de
Student con n - 1 grados de libertad que deja hacia su derecha un área de α/2 bajo la
curva. Como en el caso de la distribución normal estandarizada, este valor se denomina
valor crítico, y el más usual es el que corresponde a un valor de α = 0.05. La tabla 3
muestra los valores críticos de la distribución t para diferentes niveles de significación y

tamaño muestral.
Cuando el número de grados de libertad es grande, la curva t se aproxima a la curva
normal estándar, por tanto se podrá sustituir el valor crítico de la distribución t por el de
la distribución normal. Nuevamente, esto será aceptable para valores de n ≥ 30.
SPSS utiliza la máxima precisión en el cálculo del intervalo de confianza, considerando
el caso más real en el cual la desviación estándar de la población es desconocida. La
opción >Analizar >Estadísticos descriptivos >Explorar nos permite en el botón
Estadísticos seleccionar el nivel de confianza que deseamos utilizar en el cálculo del
intervalo de confianza para la media.
Observación: El procedimiento descrito para la construcción del intervalo de confianza

para la media se basa en el supuesto de normalidad, es decir los intervalos de confianza
propuestos son válidos siempre y cuando X siga una distribución normal. La validez de
esta suposición puede ser contrastada gráficamente, construyendo un histograma o un
diagrama de tallos y hojas, o numéricamente observando los valores de los estadísticos
calculados. En un capítulo posterior se estudiará un método analítico para comprobar la
normalidad o lo que se denomina bondad de ajuste a la distribución normal. En la
práctica, se dice que los métodos propuestos son robustos. Si la forma de X es
aproximadamente acampanada, los métodos basados en la distribución t son
generalmente buenos. Sin embargo, si hay motivos para sospechar que la variable a
estudio tiene una distribución muy alejada de la normal, no deben utilizarse estos
procedimientos. En este caso, se utilizarán mejor las técnicas de estimación no

paramétrica que se verán en un capítulo posterior.
Ejemplo 5.1: Se cree que el nivel medio de homocisteina en pacientes isquémicos es de
12. Se dispone de una muestra de 55 pacientes con isquemia, de los cuales conocemos
el nivel de homocisteina. Utilicemos estos datos para saber si la afirmación realizada es
aceptable con un nivel de confianza del 95%.
La media muestral de la homocisteina es: x = 11.8 .
La desviación estándar en la muestra es: s = 3.91.
Para un α = 0.05, el valor de la t con (55-1) grados de libertad que deja a su derecha un
área de α/2 bajo la curva es: tα 2;(n −1) = t 0.025;( 54) ≈ 2
El intervalo de confianza del 95% viene dado por:

 3.91 
 = (10.74,12.85)
3.91
I µ0.95 = 11.8 − 2 ,11.8 + 2
 55 55 
Este intervalo nos indica que la afirmación de que el nivel medio de homocisteina en
pacientes isquémicos es de 12 es aceptable con un nivel de confianza del 95%, ya que el
intervalo contiene al valor 12.
La siguiente tabla muestra los resultados ofrecidos por SPSS para estos datos:
Descriptivos
Estadístico Error típ.

HOMOCIS Media 11,800 ,5274
Intervalo de confianza Límite inferior 10,742
para la media al 95% Límite superior
12,857
Media recortada al 5% 11,405

Mediana 11,100
Varianza 15,301
Desv. típ. 3,9116
Mínimo 5,7
Máximo 27,7
Rango 22,0
Amplitud intercuartil 3,100
Asimetría 2,049 ,322
Curtosis 6,134 ,634
Podemos observar que los límites del intervalo de confianza al 95% para la media
coinciden con los calculados anteriormente.
5.2.2. ESTIMACIÓN DE LA PROPORCIÓN
Consideremos la situación siguiente: en una población de interés se está estudiando un
rasgo particular y cada miembro de la población puede clasificarse según que posea o
no ese rasgo. La inferencia se hace con respecto al parámetro p, proporción de la
población que tiene el rasgo. ¿Cuál es el estimador puntual lógico para p? El sentido
común indica que deberíamos extraer una muestra aleatoria de la población de interés,
determinar la proporción de miembros con el rasgo en la muestra y utilizar la
proporción muestral como estimación de la proporción p de la población. Si denotamos

por p̂ el estimador de p, éste viene dado por
X Número de individuos con el rasgo
pˆ = =
n tamaño de la muestra
El problema de estimación de una proporción puede verse también como la estimación
del parámetro p de una distribución binomial. Sea X una variable aleatoria binomial con
X
parámetros n y p. El estimador de p viene dado por la proporción muestral p$ = .
n
X
Para muestras de tamaño grande, la proporción de la muestra p$ = tiene una
n
distribución aproximadamente normal. Además la media de p̂ es p y la varianza es p(1
– p) / n.
Este resultado se considera aceptable para valores de n y p̂ que verifiquen n· p̂ ≥ 5 y
n·(1 − p̂ ) ≥ 5.
El intervalo de confianza del (1 − α)100% de p viene dado por la siguiente expresión:
 pˆ (1 − pˆ ) pˆ (1 − pˆ ) 
I 1p−α =  pˆ − zα / 2 , pˆ + zα / 2 

 n n 
Si sustituimos el valor crítico de zα/2 por 1.96 obtendremos el intervalo para un nivel de
confianza del 95%.
El SPSS no dispone de ningún procedimiento que calcule el intervalo de confianza para
la proporción.
Ejemplo 5.2: Se cree que más del 85% de todos los niños con dolor de pecho
presentarán, a pesar de todo, un ecocardiograma normal. Una muestra de 139 de estos
niños nos da 123 con ecocardiogramas normales. Utilicemos el resultado obtenido en la
muestra analizada para saber si la afirmación realizada es aceptable con un nivel de
confianza del 95%.
123
pˆ = = 0.885 es la proporción muestral.
139
El intervalo de confianza del 95% viene dado por:
 0.885(1 − 0.885) 0.885(1 − 0.885) 
I p0.95 =  0.885 − 1.96 , 0.885 + 1.96  = (0.832, 0.938)

 139 139 
Este intervalo nos indica que la afirmación de que más del 85% de todos los niños con
dolor de pecho presentarán, a pesar de todo, un ecocardiograma normal no es aceptable
con un nivel de confianza del 95%, pues el intervalo contiene tanto valores mayores
como menores que el 85%. Es decir, estos datos no sostienen la hipótesis del
investigador con un nivel de confianza del 95%.
5.3. CONTRASTE DE HIPÓTESIS

5.3.1. DEFINICIÓN
A menudo, los investigadores, basándose en la intuición o en experiencias anteriores,
formulan hipótesis sobre las que diseñan un plan de trabajo. Generalmente, estas
hipótesis consisten en asignar valores numéricos a determinados parámetros de la
población.
La Estadística inductiva nos proporciona métodos adecuados para aceptar o rechazar las
hipótesis -siempre en términos probabilísticos-, basándose para ello en los datos
recogidos a partir de una muestra representativa de la población.
La hipótesis nula, indicada por H0, es la hipótesis que desea ser contrastada. La
hipótesis alternativa, indicada por H1, es la negación o hipótesis complementaria de
H0.
El propósito del experimento es decidir si la prueba tiende a apoyar o a refutar la
hipótesis nula. Cuando se formulan H0 y H1 debemos tener en cuenta tres afirmaciones:
1. La hipótesis nula es la hipótesis de la “no diferencia”. En términos prácticos esto
quedaría recogido en la afirmación de que la igualdad forma parte de H0.
2. Se ha de hacer todo lo posible por detectar o fundamentar la hipótesis alternativa.
Es decir, llamar H1 a su teoría de investigación preconcebida.
3. Las hipótesis estadísticas se formulan siempre con la esperanza de que sea posible
rechazar H0 y, por lo tanto, aceptar H1.
Una vez que se selecciona la muestra y se recogen los datos, debe tomarse una decisión,
es decir, rechazar H0 o dejar de hacerlo. La decisión se toma observando el valor de
algún estadístico, denominado estadístico del contraste o estadístico pivote, cuya
distribución es conocida. Si el valor del estadístico cuando H0 es cierta difiere de lo
esperado, rechazaremos la hipótesis nula a favor de la alternativa; en caso contrario, no
rechazaremos la hipótesis nula. Esto significa que al final del estudio nos vemos
forzosamente en una de las situaciones representadas en la siguiente tabla.
Estado real
H0 H1
No rechazar H0 es cierta y no se H1 es cierta, pero no se
H0 rechaza. rechaza H0.
Decisión Decisión correcta Error de tipo II.
Rechazar H0 H0 es cierta pero se H1 es cierta y se rechaza
rechaza. H0.
Error de Tipo I Decisión correcta.
La probabilidad del error de tipo I es la probabilidad de rechazar la hipótesis nula

cuando es cierta, se conoce como nivel de significación del contraste y se indica por α.
La probabilidad del error de tipo II es la probabilidad de no rechazar la hipótesis nula
cuando es falsa, se indica por β.
La potencia de un contraste se define como (1 − β) = 1 − P(error de tipo II) =
P(Rechazar H0 | H1 cierta).
Obsérvese que es posible incurrir en error con independencia de la decisión que se
adopte. El objetivo general en los contrastes de hipótesis es que α y β sean lo más
pequeñas posibles. Esta meta exige un compromiso, ya que el hacer α pequeña supone
rechazar la hipótesis nula menos a menudo, mientras que el hacer β pequeña supone no
rechazar la hipótesis nula en menos ocasiones. Estas acciones son contradictorias; es
decir, cuando α crece, β tendrá que decrecer, mientras que cuando α decrece, β tendrá
que crecer.
5.3.2. CONTRASTE DE HIPÓTESIS PARA LA MEDIA

Consideremos ahora el problema concreto de contrastar hipótesis concernientes a la
media de una población. Esto implica que antes de llevar a cabo el experimento, uno
tiene en mente un valor de µ. Una hipótesis sobre µ puede adoptar tres formas diferentes
que se denominan: contraste con cola a la derecha, contraste con cola a la izquierda o
contraste con dos colas. Sea µ0, denominado valor nulo, el valor hipotético de la media
poblacional. Las tres formas generales son:
Contraste con cola a la derecha: H0: µ ≤ µ0
H1: µ > µ0
Contraste con cola a la izquierda: H0: µ ≥ µ0
H1: µ < µ0
Contraste con dos colas: H0: µ = µ0
H1: µ ≠ µ0
El estadístico pivote que se usa para contrastar cada hipótesis es
X − µ0
tp =
S/ n
cuya distribución bajo el supuesto de que H0 es verdad es una t con n – 1 grados de
libertad.
Es decir, en el primer caso, rechazaremos H0 para valores positivos grandes ( X muy a
la derecha de µ0); en el segundo caso, rechazaremos para valores negativos grandes ( X
muy a la izquierda de µ0); en el tercer caso, rechazaremos H0 para los valores
inusualmente grandes o pequeños del estadístico pivote. ¿Qué se entiende por valores
inusualmente grandes o pequeños?. Estos son valores del estadístico que se consideran
raros, es decir, que sería sorprendente observar esos valores si H0 fuese verdad.
Se llama p-valor o valor p a la probabilidad de obtener un resultado tan extremo o más
que el observado, cuando suponemos que Ho es cierta. Hodges y Lehman (Basic
concepts of Probability & Statistics, Holden-Day, San Francisco, 1970) describen el p-
valor como “una medición del grado de sorpresa que el experimento causaría en una
persona partidaria de la hipótesis nula”. El procedimiento a seguir en la realización de
un contraste de hipótesis es rechazar H0 si creemos que el valor p es demasiado pequeño
para haberse producido al azar.
El cálculo analítico del p-valor en un contraste para la media es, dependiendo del tipo de
contraste el siguiente:
Contraste con cola a la derecha: p = P(tn-1 > tp).
Contraste con cola a la izquierda: p = P(tn-1 < tp).
Contraste con dos colas: p = 2⋅P(tn-1 > | tp |).
No existen normas sobre como de pequeño ha de ser el valor p para rechazar H0. Una
regla empírica aproximada es que H0 no debería rechazarse para valores p mayores que
0.1. A título orientativo se ofrece el siguiente criterio. Se toma un umbral de 0.05, de
forma que para valores p mayores de 0.05 no se rechaza H0. Para valores de p menores
o iguales que 0.05 se rechaza H0 con la siguiente significación:
• Si 0.01 < p ≤ 0.05 resultados estadísticamente significativos.
• Si 0.001 < p ≤ 0.01 resultados estadísticamente muy significativos.

• Si p ≤ 0.001 resultados estadísticamente absolutamente significativos.
Algunos profesionales prefieren adoptar un modelo ligeramente diferente para
contrastar la hipótesis. Esta estrategia consiste en fijar α en un nivel específico (por
ejemplo, 0.10, 0.05, 0.01, …) antes de realizar el experimento y comparar el valor p
obtenido a este valor prefijado de forma que
p ≤ α ⇒ Rechazar H0
p > α ⇒ No rechazar H0
El contraste de hipótesis para la media se ha establecido ante el supuesto de una
distribución de origen normal con varianza desconocida. Habría que realizar tres
puntualizaciones al respecto. En primer lugar, al igual que en lo establecido en la
construcción del intervalo de confianza para la media, si la desviación estándar de la
población, σ es conocida, se podrán obtener resultados similares utilizando el
X − µ0
estadístico pivote que seguirá una distribución normal estandarizada. En
σ/ n
segundo lugar, para valores de n ≥ 30 la distribución del estadístico pivote podrá
considerarse normal estandarizada. En tercer lugar, para tamaños de muestra pequeños,
es cuando la distribución t es absolutamente necesaria y hay que recordar que la teoría
se ha desarrollado partiendo de la hipótesis de normalidad de la variable original.
El procedimiento de SPSS que nos permite realizar un contraste de hipótesis para una
media se encuentra en >Analizar >Comparar medias >Prueba T para una muestra. En
el cuadro de diálogo debemos seleccionar la variable sobre la cual se desea realizar el
contraste y el valor prefijado contra el que queremos contrastar la hipótesis.
Ejemplo 5.3: Continuamos con los datos presentados en el ejemplo 5.1. Realizamos un
contraste de hipótesis para comprobar si se sostiene la hipótesis del investigador.
El contraste de hipótesis que se plantea es el siguiente:
H0: µ = 12
H1: µ ≠ 12
La siguiente tabla muestra los resultados obtenidos con SPSS:
Prueba para una muestra
Valor de prueba = 12
95% Intervalo de
confianza para la
Diferencia diferencia
t gl Sig. (bilateral) de medias Inferior Superior
HOMOCIS -,380 54 ,706 -,200 -1,258 ,857
La información que obtenemos de estos resultados es:

El valor del estadístico pivote: tp = -0.380.
El valor p del contraste: p = 2 ⋅ P(t 54 > − 0.380 ) = 0.706 (bilateral).
Por tanto, para un nivel de significación de 0.05, no se rechaza H0, ya que p = 0.706 >
0.05. Entonces, la hipótesis del investigador si se sostiene.
5.3.3. CONTRASTE DE HIPÓTESIS PARA LA PROPORCIÓN
Los contrastes de hipótesis para p toman las mismas formas generales que los relativos
a la media. Se describen a continuación, representando por p0 el valor hipotético de la
proporción que se desea contrastar.
Contraste con cola a la derecha: H0: p ≤ p0
H1: p > p0
Contraste con cola a la izquierda: H0: p ≥ p0
H1: p < p0
Contraste con dos colas: H0: p = p0
H1: p ≠ p0
pˆ − p 0
Zp =
p 0 ⋅ (1 − p 0 ) / n
cuya distribución, bajo el supuesto de que H0 es verdad, es normal estandarizada.
El cálculo del p-valor en un contraste para la proporción es, dependiendo del tipo de
contraste el siguiente:
Contraste con cola a la derecha: p = P(Z > zp).
Contraste con cola a la izquierda: p = P(Z < zp).
Contraste con dos colas: p = 2⋅P(Z > | zp |).
El procedimiento de SPSS que nos permite realizar un contraste de hipótesis para una
proporción se encuentra en >Analizar >Pruebas no paramétricas >Binomial. En el
cuadro de diálogo debemos seleccionar la variable sobre la cual se desea realizar el
contraste y el valor prefijado contra el que queremos contrastar la hipótesis.
Ejemplo 5.4: Continuamos con los datos presentados en el ejemplo 5.2. Si realizamos
un contraste para ver si la hipótesis de investigación se sostiene.
El contraste de hipótesis que se plantea es:
H0: p ≤ 0.85
H1: p > 0.85
La siguiente tabla muestra los resultados obtenidos con SPSS

Prueba binomial
Proporción Prop. de Sig. asintót.

Categoría N observada prueba (unilateral)
ELEKTRO Grupo 1 1,00 123 ,88 ,85 ,151a
Grupo 2 ,00 16 ,12
Total 139 1,00
a. Basado en la aproximación Z.
La información que obtenemos de estos resultados es:

Estimación puntual de p: p̂ = 0.88
Valor p del contraste p = 0.151 (unilateral). Pero el resultado no especifica si el valor p
unilateral corresponde al contraste hacia la derecha o hacia la izquierda. Por tanto,
veamos una forma de salir de dudas.
El valor del estadístico es positivo, puesto que 0.88 > 0.85. Es decir,
Contraste hacia la derecha: p = P(Z > zp) < 0.5.
Contraste hacia la izquierda: p = P(Z < zp) > 0.5.
Por tanto el valor que ofrece SPSS coincide con el valor p del contraste unilateral hacia
la derecha que es precisamente el que necesitamos. Por tanto, p = 0.151. Es decir, no se
rechaza H0 y la hipótesis del investigador no se sostiene.
Observación: A menudo cometemos el error de realizar muchos contrastes estadísticos
que ocultan la significación práctica de los resultados bajo montañas de p-valores,
intervalos de confianza y otra jerga estadística. Es muy importante, antes de iniciar
ningún análisis estadístico establecer claramente los objetivos del estudio y las hipótesis
a contrastar por medio de métodos estadísticos. Lo contrario puede llevarnos a encontrar
relaciones estadísticamente significativas que, no solo no sean reales, sino que además
sean absurdas.
Inferencia para dos medias independientes Bioestadística con SPSS
Tema 6: COMPARACIÓN DE DOS MEDIAS INDEPENDIENTES
6.1. INTRODUCCIÓN
En el capítulo anterior se ha desarrollado la metodología necesaria para realizar
inferencia en una única población. Sin embargo, en los estudios médicos surge
frecuentemente el problema de comparar dos poblaciones. El caso más simple es el que
tenemos cuando queremos comparar la media de una variable o característica en dos
poblaciones independientes. Esto es lo que coloquialmente se conoce como cruzar una
variable continua con una variable dicótoma o analizar si existe una relación
estadísticamente significativa entre una variable continua y otra dicótoma. Vemos un
ejemplo donde estaríamos ante esta situación.
Ejemplo 6.1: se realiza un estudio de prácticas de prescripción. El propósito es analizar
la prescripción de digoxina, un fármaco importante y comúnmente utilizado que es
potencialmente tóxico. Se sabe que, generalmente, el nivel de dosificación para los
pacientes que están por encima de los sesenta y cuatro años de edad debería ser menor
que el de personas más jóvenes. Para llevar a cabo este estudio, se extraen muestras
independientes de ambos grupos o poblaciones (mayores de sesenta y cuatro años y
menores de esta edad) y se obtiene el nivel de dosificación de digoxina para cada
paciente seleccionado. La pregunta que se plantea en este estudio es si el nivel medio de
digoxina utilizado en pacientes mayores de sesenta y cuatro años es menor que el
utilizado en pacientes más jóvenes. Es decir, si utilizamos el subíndice 1 para pacientes
mayores de sesenta y cuatro años y el subíndice 2 para pacientes con sesenta y cuatro
años o menos, ¿es µ1 < µ2?.
Las siguientes secciones desarrollan la metodología necesaria para responder a
preguntas científicas de este tipo, en base a diferentes hipótesis o supuestos teóricos.
6.2. INFERENCIA PARA DOS MEDIAS INDEPENDIENTES

Supongamos que tenemos dos poblaciones de interés, cada una con media desconocida;
se extrae una muestra aleatoria de la primera población y otra de la segunda, de forma
tal que los objetos seleccionados de la primera población no tengan relación con los
seleccionados de la segunda población, esto es lo que se denominan muestras
independientes. El objetivo principal es comparar las dos medias poblacionales y lo
haremos utilizando para ello la diferencia. Se comparan las medias poblacionales por
medio de una estimación puntual.
 ∧ 
 µ − µ  = µˆ − µˆ = X − X
 1 2
 1 2 1 2
 
donde X 1 y X 2 son las medias muestrales de las poblaciones.
Si queremos construir un intervalo de confianza para µ1 − µ2 o realizar un contraste de
hipótesis para comparar µ1 con µ2 debemos obtener información sobre la distribución
del estimador puntual.
Resultado teórico: Sean X 1 y X 2 las medias muestrales basadas en muestras
independientes de tamaños n1 y n2, extraídas de distribuciones normales con media µ1 y
µ2 y varianzas σ 12 y σ 22 , respectivamente. Entonces la variable aleatoria X 1 − X 2

σ 12 σ 22
tiene una distribución normal con media µ1 − µ2 y varianza + .
n1 n2
Como en el caso de una muestra, por el Teorema Central del Límite, se puede suponer
que, para muestras de tamaño grande, X 1 − X 2 es aproximadamente normal, incluso si
las muestras son extraídas de poblaciones que no están normalmente distribuidas.
Hay dos estadísticos usados para comparar las medias de dos poblaciones normales.
Ello se debe al hecho de que hay dos posibilidades distintas. Éstas son:
• σ 12 y σ 22 son desconocidas, pero se supone que son iguales.
• σ 12 y σ 22 son desconocidas y no se supone que sean iguales.

La primera tarea del investigador será determinar cual de las dos situaciones se da en su
estudio. Eso significa que habrá que desarrollar un procedimiento por el cual podamos
determinar rápidamente si la evidencia tiende a señalar el hecho de que σ 12 y σ 22 son
diferentes. Los pasos a seguir para la comparación de medias serán los siguientes:
1. Contrastamos H0: σ 12 = σ 22 frente a H1: σ 12 ≠ σ 22 . Esto lo haremos en el apartado
siguiente.
2. Si no rechazamos H0, procedemos como si las varianzas poblacionales fuesen
iguales.
3. Si rechazamos H0, es evidente que las varianzas poblacionales no son iguales, por
tanto se procede en consecuencia.
6.2.1. VARIANZAS IGUALES
En esta sección se presentan técnicas para estimación por intervalos de confianza y por
contraste de hipótesis suponiendo que las varianzas poblacionales son iguales.
Si se han comparado las varianzas poblaciones y no se ha detectado diferencia entre
ellas, supondremos que efectivamente son iguales. Sea σ2 la varianza común. Es decir,
sea σ2 = σ 12 = σ 22 . Puesto que σ2 no se conoce a de ser estimada a partir de los datos,
dado que la estimación es mejor cuanto mayor es el tamaño de la muestra, la mejor
estimación de la varianza común será la media ponderada de las estimaciones
anteriores. Es decir,
(n1 − 1) ⋅ s12 + (n2 − 1) ⋅ s22
σ$ 2 = s 2p =
n1 + n2 − 2
Tomando como base el resultado teórico del apartado anterior y sustituyendo la
varianza del estimador por esta última expresión tenemos que el estadístico
(X 1 (
− X 2 ) − µ1 − µ
2
)
1 1
s +
p n n2
1
sigue una distribución t con n1 + n2 – 2 grados de libertad.
Entonces un intervalo de confianza del (1 - α)100% de µ1 − µ2 viene dado por

 1 1 1 1 
I µ1−1 α− µ 2 =  x1 − x 2 − tα / 2;( n1 + n2 − 2 ) ⋅ s p + , x1 − x 2 + tα / 2;( n1 + n2 − 2) ⋅ s p + 
 n1 n 2 n1 n 2 
Los contrastes de hipótesis para la comparación de medias se describen a continuación,

Contraste con cola a la derecha: H0: µ1 ≤ µ2
H1: µ1 > µ2
Contraste con cola a la izquierda: H0: µ1 ≥ µ2
H1: µ1 < µ2
Contraste con dos colas: H0: µ1 = µ2
H1: µ1 ≠ µ2
tp =
(X 1 − X2)
1 1
sp +
n1 n 2
cuya distribución, bajo el supuesto de que H0 es verdad, es una t con n1 + n2 – 2 grados
de libertad.
El cálculo del p-valor se realizará igual que en los casos anteriores
Contraste con cola a la derecha: p = P(tk > tp).
Contraste con cola a la izquierda: p = P(tk < tp).
Contraste con dos colas: p = 2⋅P(tk > | tp |).
Siendo k = n1 + n2 – 2.
6.2.2. VARIANZAS DISTINTAS
En esta sección se presentan técnicas para estimación por intervalos de confianza y para
contraste de hipótesis suponiendo que las varianzas poblacionales son distintas.
Si cuando se comparan las varianzas de la población se detecta una diferencia resulta
inapropiado promediarlas. Tomando como base el resultado teórico del apartado
anterior y sustituyendo, en este caso cada varianza poblacional por su estimador
tenemos que el estadístico
(X 1 − X 2 ) − (µ1 − µ 2 )
s12 s 22
+
n1 n 2
sigue una distribución t.
El número de grados de libertad puede estimarse a partir de los datos. Se han sugerido
varios métodos para hacerlo. El que se muestra aquí es el procedimiento de Smith-
Satterthwaite. De acuerdo con éste, el número de grados de libertad es γ y viene dado
por la expresión
2
 s12 s 22 
 + 
γ =  n1 n 2 
(
s12 / n1 ) (
2
+
s 22 / n 2
2
)
n1 − 1 n2 − 1
Si este valor no es entero se redondea al entero más próximo por defecto, de forma que
optamos siempre por la solución más conservadora.
Entonces un intervalo de confianza del (1 - α)100% de µ1 − µ2 viene dado por
 s2 s2 s2 s2 
I µ1−1 α− µ 2 =  x1 − x 2 − tα / 2;γ ⋅ 1 + 2 , x1 − x 2 + tα / 2;γ ⋅ 1 + 2 
 n1 n2 n1 n2 

Los contrastes de hipótesis para la comparación de medias son los descritos en la
sección anterior, solo que el estadístico pivote es ahora
tp =
(X 1 − X2)
s12 s 22
+
n1 n 2
cuya distribución bajo el supuesto de que H0 es verdad es una t con γ grados de libertad.
El cálculo del p-valor se realizará igual que en el caso anterior.
El SPSS está diseñado para realizar ambos tipos de análisis, es tarea del investigador
decidir cuál de los dos contrastes es el apropiado. Las herramientas computacionales
hacen el trabajo de cálculo por usted, no interpretan los resultados.
6.3. INFERENCIA PARA DOS VARIANZAS

Hay dos motivos para querer comparar dos varianzas poblacionales. Primero, muchos
estudios tienen como objetivo comparar dos medias poblacionales, pero como se ha
visto anteriormente, existen dos métodos para hacer esta comparación en función de si
las varianzas de las poblaciones son iguales o distintas. La segunda razón y obvia, es
por que dicha comparación nos interesa especialmente. Es decir, nuestro objetivo se
centra, por ejemplo, en comparar la precisión de dos técnicas de medición.
Para comparar σ 12 con σ 22 , compararemos simplemente S12 con S 22 , considerando su

cociente. Si las dos poblaciones desconocidas resultan ser de hecho iguales, estiman
ambas la misma cosa. En este caso esperaríamos que S12 y S 22 tuviesen valores
semejantes, forzando al cociente S12 / S 22 a ser cercano a 1. Es decir, valores del cociente
cercanos a 1 confirman la idea de que σ 12 = σ 22 . Veamos como se haría formalmente.
Los contrastes pueden tomar una cualquiera de las tres formas usuales.
Contraste con cola a la derecha: H0: σ 12 ≤ σ 22
H1: σ 12 > σ 22
Contraste con cola a la izquierda: H0: σ 12 ≥ σ 22

H1: σ 12 < σ 22
Contraste con dos colas: H0: σ 12 = σ 22

H1: σ 12 ≠ σ 22
El estadístico pivote usado para comprobar cualesquiera de estas hipótesis es Fp =
S12 / S 22 . Para conocer la distribución de este estadístico necesitamos introducir una
nueva distribución, la distribución F.
Sean X γ21 y X γ22 dos variables aleatorias independientes con distribución ji-cuadrado
con γ1 y γ2 grados de libertad, respectivamente. Entonces la variable aleatoria
χ γ21 / γ 1
χ γ2 / γ 2
2
sigue lo que se llama una distribución F con γ1 y γ2 grados de libertad.

Propiedades:
1. Hay un número infinito de variables F, cada una identificada por dos parámetros γ1
y γ2, llamados grados de libertad del numerador y denominador, respectivamente.
Estos parámetros son siempre enteros positivos. La notación Fγ 1 ,γ 2 designa una
variable aleatoria F con γ1 y γ2 grados de libertad.
2. Cada variable aleatoria F es continua.
3. Las variables F no pueden tomar valores negativos.
4. La gráfica de la función de densidad de cada variable F es una curva asimétrica,
cuya forma depende de los valores de los parámetros γ1 y γ2.
Volviendo al problema de la distribución del estadístico pivote, tenemos que bajo el
supuesto de que H0 es verdad, Fp = S12 / S 22 sigue una distribución F con n1 y n2 grados
de libertad.
El cálculo del p-valor en este contraste es, dependiendo del tipo de contraste el
siguiente:
Contraste con cola a la derecha: p = P( Fn1 ,n2 >Fp).
Contraste con cola a la izquierda: p = P( Fn1 ,n2 <Fp).
Contraste con dos colas: Al ser la distribución no simétrica, tenemos que diferenciar dos
casos
Si s12 ≤ s 22 entonces, p = 2⋅ P( Fn1 ,n2 <Fp)
Si s12 > s 22 entonces, p = 2⋅ P( Fn1 ,n2 >Fp)

Estamos suponiendo, una vez más, que las poblaciones en estudio son normales. Este
supuesto es necesario para que S12 / S 22 tenga una distribución F. La consecuencia de no
cumplir este supuesto, es que el valor de p obtenido o el nivel α pueden no ser exactos.
En todo caso, se ha comprobado que este problema se minimiza si las muestras son de
igual tamaño.
Existe una regla práctica, que aún no siendo exacta es muy útil a la hora de hacer un
contraste de igualdad de varianzas. Esta regla práctica puede usarse especialmente
cuando el único propósito de comparar las varianzas es determinar un estadístico
apropiado para comparar medias. (J. S. Milton. Estadística para Biología y Ciencias de
la Salud. Interamericana-McGraw-Hill, 1994).
Regla práctica para comparar σ 12 y σ 22 : Sean S12 y S 22 las varianzas de dos muestras
extraídas de distribuciones normales. Supongamos que s12 ≥ s 22 . Entonces, si s12 / s 22 ≥ 2,
suponemos que σ 12 ≠ σ 22 .
Esta regla es bastante tolerante, no queremos usar un estadístico para comparar medias
que suponga que σ 12 = σ 22 , si existe el más ligero indicio de que esa suposición no es
cierta.
La inferencia en lo que respecta a la comparación de dos medias poblacionales se ha
establecido ante el supuesto de poblaciones normal con varianzas desconocidas. Habría
que realizar tres puntualizaciones al respecto. En primer lugar, al igual que en lo
establecido en el caso de inferencia para una media, si la varianzas de la poblaciones
son conocidas, se podrán obtener resultados similares utilizando el estadístico pivote
(X 1 − X2)
σ 12 σ 22
+
n1 n2
que seguirá una distribución normal estandarizada. En segundo lugar, para valores de n1
y n2 grandes (≥ 30) la distribución del estadístico pivote podrá considerarse normal
estandarizada sustituyendo las varianzas poblaciones por sus estimadores. En tercer
lugar, para tamaños de muestra pequeños, es cuando la distribución t es absolutamente
necesaria y hay que recordar que la teoría se ha desarrollado partiendo de la hipótesis de
normalidad.
Ejemplo 6.2: Para realizar el estudio descrito en el ejemplo 6.1 se analizaron dos
muestras de pacientes. Se obtuvo una muestra de 41 pacientes con una edad superior a
los 64 años y otra muestra de 29 pacientes con 64 o más años de edad. Analizadas
ambas muestras con respecto al nivel de digoxina administrado a estos pacientes se
obtuvieron los siguientes datos:
Edad > 64 Edad ≤ 64

n1 = 41 n2 = 29
x1 = 0.265 mg/dia x 2 =0.268 mg/dia
s12 = 0.0104 s 22 = 0.0046
En primer lugar, antes de comparar las dos medias, veamos que podemos decir de las
varianzas, s12 / s 22 = 2.25 ≥ 2. Por tanto, concluimos que las varianzas poblaciones σ 12 y
σ 22 son diferentes.
El contraste de hipótesis que debemos establecer para estudiar si el nivel medio de
digoxina utilizado en pacientes mayores de sesenta y cuatro años es menor que el
utilizado en pacientes más jóvenes es el siguiente:
H0 : µ1 ≥ µ2
H1 : µ 1 < µ 2
Calculamos el valor del estadístico pivote:
tp =
(X 1 − X2)
=
0.265 − 0.268
= -0.1476
2 2
s s 0.0104 0.0046
1
+ 2 +
n1 n 2 41 29
Los grados de libertad son:

2
 s12 s 22 
 + 
γ =  n1 n 2  = 39.68 ≈ 40
(
s12 / n1
2
+
) (
s 22 / n 2
2
)
n1 − 1 n2 − 1
El p-valor sería p = P(t40 < -0.1476) ≈ P(Z < -0.1476) = P(Z > 0.1476) = 0.44 > 0.05. Es
decir, no podemos rechazar la hipótesis nula. Por tanto, estos datos no aportan evidencia
estadística sobre la hipótesis establecida de que el nivel medio de digoxina utilizado en
pacientes mayores de sesenta y cuatro años es menor que el utilizado en pacientes más
jóvenes.
6.4. APLICACIÓN EN SPSS

En los apartados anteriores se han establecido las bases teóricas para realizar inferencia
sobre las medias de dos poblaciones independientes. Se han introducido diferentes
estadísticos en función de si las varianzas poblacionales son conocidas o no, son iguales
o no y de si los tamaños muestrales son grandes o no. En la práctica, no es necesario
tener en cuenta todos estos factores. El supuesto de varianzas conocidas, al igual que se
mencionaba en el tema 5 en el estudio de una muestra, es bastante improbable. Por otro
lado, SPSS no establece diferencias en función de si el tamaño muestral es grande o no,
considera siempre el caso más general. Por lo tanto, si utilizamos el SPSS, únicamente
debemos decidir si consideramos las varianzas iguales o no y este contraste está
incorporado en la inferencia para dos medias independientes que realiza el paquete
estadístico por defecto.
El procedimiento de SPSS que nos permite realizar inferencia, contraste de hipótesis e
intervalo de confianza, para dos medias independientes es >Analizar >Comparar
medias >Prueba t para muestras independientes. En el cuadro de diálogo debemos
seleccionar la variable continua sobre la cual se desea realizar el contraste de diferencia
de medias y el factor (variable dicótoma) que nos establece los dos grupos.
Ejemplo 6.3: Se dispone de 105 pacientes, de los cuales 55 son pacientes con isquemia
crónica y 50 son un grupo de controles. Entre otras variables, se ha recogido el nivel de
triglicéridos. Uno de los objetivos del estudio es estudiar las diferencias en el nivel
medio de triglicéridos entre casos y controles.
El contraste de hipótesis que debemos establecer para estudiar las diferencias en el nivel
medio de triglicéridos entre casos y controles es el siguiente:
H0 : µControl = µCaso
H1 : µ Control ≠ µ Caso
El siguiente gráfico muestra los pasos a seguir en SPSS:
Variable continua a analizar la media Variable dicótoma para hacer los grupos
Debemos definir también los valores de la variable de agrupación, en este caso
codificados como 0 (control )y 1 (caso).
Continuando con el proceso, los resultados obtenidos de SPSS son las dos tablas
siguientes:
Estadísticos de grupo
Desviación Error típ. de

GRUPO N Media típ. la media
TRI Control 50 107,88 48,69 6,89
Caso 55 138,51 73,77 9,95
La primera tabla nos proporciona algunos estadísticos descriptivos desglosados por

casos y controles. Vemos que el fichero consta de 50 controles con un nivel medio de
triglicéridos de 107.88 y una desviación estándar de 48.69; y de 55 casos de isquemia
crónica con un nivel medio de triglicéridos de 138.51 y una desviación estándar de
73.77. Se puede ver también el error estándar de la media en cada uno de los grupos.
Ante este resultado parece razonable preguntarse si existen diferencias estadísticamente
significativas en el nivel medio de triglicéridos entre casos y controles.
La segunda tabla nos muestra los resultados de realizar un contraste de hipótesis para
igualdad en el nivel medio de triglicéridos entre casos y controles. En primer lugar,
SPSS realiza un contraste de igualdad de varianzas (Prueba de Levene para la igualdad
de varianzas), que no s exactamente con la prueba descrita en el apartado anterior, pero
los resultados son totalmente equivalentes. En este caso obtenemos los siguientes
resultados:
Prueba de muestras independientes
Prueba de Levene
para la igualdad de
varianzas Prueba T para la igualdad de medias
95% Intervalo de
confianza para la
Diferencia Error típ. de diferencia
F Sig. t gl Sig. (bilateral) de medias la diferencia Inferior Superior
TRI Se han asumido
1,774 ,186 -2,484 103 ,015 -30,63 12,329 -55,080 -6,178
varianzas iguales
No se han asumido
-2,532 94,286 ,013 -30,63 12,098 -54,649 -6,609
varianzas iguales
Estadístico pivote = 1.774 y p = 0.186. Por tanto, como p > 0.05, no se rechaza la
igualdad de varianzas.
Ante este resultado, a la hora de realizar el contraste de igualdad de medias, debemos
fijarnos únicamente en la línea etiquetada como “Se han asumido varianzas iguales”
para realizar el contraste de igualdad de medias, del cual obtenemos los siguientes
resultados:
Estadístico pivote = –2.484 y p = 0.015. Por tanto, como p < 0.05, se rechaza H0 y por
tanto, podemos decir que existen diferencias estadísticamente significativas en el nivel
medio de triglicéridos entre casos y controles.
Este mismo resultado podríamos haberlo obtenido fijándonos en el intervalo de
confianza para la diferencia de medias: (-55.08, -6.18). Este intervalo no contiene al
cero, por tanto con un nivel de confianza del 95% admitimos que las dos medias
podrían ser diferentes.
Ejemplo 6.4: Queremos comprobar si hay diferencia de precisión entre dos materiales
volumétricos empleados habitualmente en el laboratorio. Para medir un volumen de 25
mL de agua destilada, a 20º, se utiliza tanto una pipeta aforada de 25 mL, como una
probeta de 100mL. Asumiendo que dentro de los márgenes de error de la medida 1 g
corresponde a 1 mL, han sido realizadas diferentes medidas con los dos materiales.
Peso (g) de un volumen de 25mL con el instrumento indicado

Pipeta (g) 24.95 24.98 24.97 24.95 24.98
Probeta (g) 24.97 24.72 24.98 25.39 24.62 25.16
El contraste de hipótesis que debemos establecer para estudiar las diferencias en la
precisión entre los dos materiales es el siguiente:
H0 : σPipeta = σProbeta
H1 : σPipeta ≠ σProbeta
Los pasos a seguir en SPSS son los mismos que en el ejemplo anterior, pero ahora
nuestro interés se centra únicamente en los resultados obtenidos para la diferencia en la
medida de dispersión (que es la que controla la precisión del material), es decir en la
desviación estándar.
En la primera tabla de resultados podemos observar las estimaciones de la desviación
estándar para cada uno de los dos materiales, 0.0152 para la pipeta y 0.2820 para la
probeta.
Estadísticos de grupo
Media Error típ. de la

Material N Desviación típ. media
Peso Pipeta 5 24,9660 ,01517 ,00678
Probeta 6 24,9733 ,28197 ,11511
La segunda tabla nos muestra los resultados del contraste de hipótesis. Por tanto, con un
nivel de significación del 5%, podemos afirmar que existen diferencias significativas en
la precisión de ambos materiales.
Prueba de muestras independientes
Prueba de
Levene para la
igualdad de
varianzas Prueba T para la igualdad de medias
95% Intervalo de
Error típ. confianza para la
Sig. Diferencia de la diferencia
F Sig. t gl (bilateral) de medias diferencia Inferior Superior
Peso Se han asumido

5,958 ,037 -,058 9 ,955 -,00733 ,12741 -,29555 ,28089
varianzas iguales
No se han asumido
-,064 5,035 ,952 -,00733 ,11531 -,30314 ,28848
varianzas iguales
Si queremos contrastar, a la vista de los resultados, si la pipeta es más precisa que la

probeta, debemos realizar un contraste de hipótesis de una cola. En este caso debemos
tener en cuenta que el SPSS realiza el contraste de igualdad de varianzas considerando
en el numerador la muestra con la varianza más alta y en el denominador la mas baja, de
manera que el contraste de interés de una cola, siempre sería en de la derecha, cuyo
valor p podemos calcular dividiendo el obtenido por dos. Así, el valor p del contraste de
una cola es 0.019, de manera que concluimos que la pipeta es un material volumétrico
más preciso que la probeta con un nivel de significación del 5%.
Análisis de la varianza Bioestadística con SPSS
Tema 7: ANALISIS DE LA VARIANZA
7.1. INTRODUCCIÓN
En el capítulo 6 hemos visto métodos para comparar la media de dos poblaciones.
Ahora ampliamos los métodos vistos en ese capítulo a más de dos poblaciones. El
término análisis de la varianza hace referencia a un procedimiento analítico por el que
se subdivide la variación total en la magnitud de una determinada respuesta en
componentes que pueden atribuirse a algún origen reconocible y utilizarse para
contrastar hipótesis de interés.
7.2. ANÁLISIS DE LA VARIANZA DE UN FACTOR

Veamos el caso más simple de análisis de la varianza, con una clasificación simple o de
una vía, diseño completamente aleatorio con efectos fijos o más comúnmente conocido
como análisis de la varianza de un factor. Empezamos describiendo un estudio que
puede ser analizado por la técnica del análisis de la varianza.
Ejemplo 7.1 : Se realiza un estudio para comparar la eficacia de tres programas
terapéuticos para el tratamiento del acné de tipo medio a moderado. Se emplean tres
métodos:
I. Lavado dos veces al día con un cepillo de polietileno y un jabón abrasivo, junto con
el uso diario de 250 mg de tetraciclina
II. Aplicación de crema de tretinoína, evitar el sol, lavado dos veces al día con un
jabón emulsionante y agua y utilización, dos veces al día, de 250 mg de tetraciclina.
III. Evitar el agua, lavado dos veces al día con un limpiador sin lípidos y uso de crema
de tretinoína y de preoxido de benzoilo.
Se comparan estos tres tratamientos en cuanto a su eficacia en la reducción del número
de lesiones de acné en los pacientes. En el estudio participan 35 pacientes que se
separan aleatoriamente en tres grupos de 10, 12 y 13, asignándose uno de los
tratamientos a cada uno de los grupos. Después de 10 semanas se anotó para cada
paciente el porcentaje de mejoría en el número de lesiones.
En este ejemplo, se disponen de N = 35 pacientes que sufren acné de tipo medio a
moderado. Hay k = 3 tratamientos a comparar. Los pacientes se dividen aleatoriamente
en tres grupos de tamaño n1 = 10, n2 = 12 y n3 = 13. Cada subgrupo recibe un
tratamiento diferente y la respuesta anotada es el porcentaje de mejoría en el número de
lesiones observado al final de 16 semanas de tratamiento. Los tres subgrupos se
consideran muestras aleatorias independientes extraídas de las poblaciones de
pacientes que están recibiendo los tratamientos I, II y III, respectivamente. Basándose
en los datos obtenidos, queremos contrastar:
H0: µ1 = µ2 = µ3 (no hay diferencia en la respuesta
media entre los tres tratamientos)
H1: µi ≠ µj para algún i y j. (al menos un tratamiento es
diferente de los otros)
El término de un factor o clasificación simple o de una vía se refiere a que solamente se
estudia un factor en cada experimento. En el ejemplo el factor que interesa es el
tratamiento recibido. Están estudiándose tres tratamientos; de este modo el factor está
investigándose en tres niveles. El experimento implica k niveles de dicho factor. El
término completamente aleatorio se refiere a que las k muestras son independientes unas
de otras. El término efectos fijos expresa que el experimentador selecciona
específicamente los niveles del factor implicados, por que considera que estos tienen un
interés especial. No se seleccionan aleatoriamente de un grupo más grande de niveles
posibles. En el ejemplo, el propósito del experimento es comparar los tres tratamientos
específicos. Los tratamientos no han sido seleccionados aleatoriamente de un gran
grupo de tratamientos disponibles contra el acné.
Los datos recogidos en un experimento de un único factor se registran
convenientemente en el siguiente formato
Nivel de factor
1 2 3 ... k
X11 X21 X31 … Xk1
X12 X22 X32 … Xk2
X13 X23 X33 … Xk3
… … … … …
X 1n1 X 1n2 X 1n3 … X 1nk
k
Además, ni es el tamaño de la muestra extraída de la i-ésima población y N = ∑n
i =1
i
designa el número total de respuestas. Además, Xij tal que i = 1, 2, ..., k y j =1, 2, ..., ni
es una variable aleatoria que indica la respuesta de la j-ésima unidad experimental al i-
ésimo nivel del factor.
Al utilizar datos muestrales para comparar medias poblacionales, se requieren ciertos
estadísticos:
ni
Ti· = ∑X
j =1
ij = Suma total de las respuestas en el nivel i-ésimo (i = 1, 2, ..., k)
Ti ·
X i· = = Media muestral para el nivel i-ésimo (i = 1, 2, ..., k)
ni
k ni k
T·· = ∑∑ X ij = ∑ Ti· = Suma total de las respuestas
i =1 j =1 i =1
T··
X ·· = = Media muestral de todas las respuestas
N
k ni
∑∑ X
i =1 j =1
2
ij = Suma de los cuadrados de cada respuesta
En esta notación, el punto indica el subíndice sobre el que se aplica el sumatorio.

La hipótesis que deseamos contrastar al realizar un análisis de la varianza es la igualdad
de medias poblacionales.
Para escribir el modelo utilizaremos la siguiente notación:
µi = Promedio teórico o respuesta esperada al nivel i-ésimo (i = 1, 2, ..., k)
Media de la i-ésima población (constante desconocida)

µ = Promedio teórico o respuesta esperada, ignorando los niveles del factor
Media de la población que resulta de la combinación de las k poblaciones
en una (constante desconocida)
Obsérvese que si los niveles del factor no tienen efecto sobre la respuesta, entonces las
medias µ1, µ2, ..., µk serán la misma y se igualarán a la media global µ; no será así si los
niveles del factor afectan a la respuesta. Por lo tanto, la diferencia entre la media del i-
ésimo nivel y la media global µi − µ indica el efecto, si lo hay, del i-ésimo nivel del
factor. Obsérvese también que, a pesar del hecho de que cada miembro de la i-ésima
población recibe el mismo tratamiento, las respuestas obtenidas variarán algo a causa de
influencias aleatorias. Es decir, dentro de cada población hay cierta variabilidad natural
en torno a la media poblacional. Para una determinada respuesta Xij, esta variabilidad
viene dada por la diferencia Xij − µi. Esta diferencia se conoce como error aleatorio.
Teniendo en cuenta lo expuesto, el modelo para el análisis de la varianza de un factor
puede expresarse de la siguiente manera:
Xij = µ + ( µi − µ) + (Xij − µi) i = 1, 2, .., k
j = 1, 2, …, ni
Este modelo expresa matemáticamente la idea de que cada respuesta puede dividirse en
tres componentes, del siguiente modo:
Respuesta = Respuesta media + Desviación de la + Desviación
de la j-ésima global media global aleatoria de la i-
unidad debida a que la ésima media
experimenta unidad reciba el poblacional debida
l al i-ésimo tratamiento i-ésimo a influencias
tratamiento aleatorias
(Xij) (µ) ( µi − µ) (Xij − µi)
Como en ocasiones anteriores, para contrastar la hipótesis nula, debe obtenerse un
estadístico pivote. El estadístico deberá ser lógico, pero, lo que es más importante aún,
su distribución de probabilidad ha de ser conocida bajo el supuesto de que la hipótesis
nula es cierta y las medias de las k poblaciones son iguales. Para que esto ocurra, deben
hacerse ciertas suposiciones acerca de las poblaciones de las que han sido extraídas las
muestras. Estas suposiciones son las siguientes:
1. Las k muestras representan muestras aleatoria independientes extraídas de k
poblaciones específicas con medias µ1, µ2, ..., µk, donde µ1, µ2, ..., µk son constantes
desconocidas.
2. Cada una de las k poblaciones es normal
3. Las k poblaciones tienen la misma varianza, σ2.
Estos supuestos son los mismos que los realizados en el tema 6 para la comparación de
dos medias mediante el estadístico t.
Hasta ahora hemos definido el modelo teórico. En la práctica, las medias teóricas se
sustituyen por sus estimadores de forma que se obtiene el siguiente modelo:
Xij = X ·· + ( X i· − X ·· ) + (Xij − X i· ) i = 1, 2, .., k
j = 1, 2, …, ni
Al término (Xij − X i· ) se le denomina habitualmente residuo y representa la parte
aleatoria del modelo.
Partiendo de esta expresión del modelo se obtiene lo que se llama la identidad de la
suma de cuadrados o descomposición de la variabilidad.
k ni k k ni
∑ ∑(X ij − X ·· ) = ∑ ni ( X i· − X ·· ) + ∑∑ ( X ij − X i · ) 2
2 2
i =1 j =1 i =1 i =1 j =1
En esta identidad hay tres componentes:

k ni
∑∑ ( X ij − X ·· ) 2 = Suma de los cuadrados de las desviaciones de las

i =1 j =1
observaciones respecto a la media global

= Medida de la variabilidad total en los datos
= Suma total de cuadrados = SST
k
∑ n (X i i· − X ·· ) 2 = Suma ponderada de los cuadrados de las desviaciones del nivel

i =1
o de las medias de los tratamientos respecto a la media global
= Medida de la variabilidad en los datos atribuida a que se
utilicen diferentes niveles o tratamientos
= Suma de cuadrados de los tratamientos = SS(Tr)
k ni
∑∑ ( X ij − X i· ) 2 = Suma de los cuadrados de las desviaciones de las

i =1 j =1
observaciones respecto a la media de los tratamientos asociada

a la observación
= Medida de la variabilidad en los datos atribuida a las
fluctuaciones aleatorias entre sujetos dentro del mismo nivel
del factor
= Suma de los cuadrados de los residuos o error = SSE
Utilizando esta notación la igualdad anterior queda de la siguiente manera:
SST = SS(Tr) + SSE
Para realizar el contraste de hipótesis
H0: µ1 = µ2 = ... = µk
H1: Alguna de las medias difiere
Se utiliza el estadístico pivote
SS (Tr ) k −1
Fp =
SSE N − k
Que bajo el supuesto de que H0 es cierta, sigue una distribución F con k – 1 y N – k
grados de libertad.
Es decir, valores grandes de Fp indican que la variabilidad explicada por el factor es

grande comparada con la variabilidad aleatoria, por tanto nos llevarían a rechazar H0;
sin embargo valores pequeños de Fp nos indican que la variabilidad explicada por el
factor es pequeña, por tanto deduciríamos que el factor no influye en la respuesta.
Ejemplo 7.2: Cuando se realizó el experimento descrito en el ejemplo 7.1, se obtuvieron
los siguientes datos. Recordar que la respuesta observada es el porcentaje de mejoría
registrado por paciente, en el número de lesiones de acné al final de las 16 semanas de
tratamiento.
Tratamiento
I II III
48.6 50.8 68.0 71.9 67.5 61.4
49.4 47.1 67.0 71.5 62.5 67.4
50.1 52.5 70.1 69.9 64.2 65.4
49.8 49.0 64.5 68.9 62.5 63.2
50.6 46.7 68.0 67.8 63.9 61.2
68.3 68.9 64.8 60.5
62.3
Los valores observados de los estadísticos son:
T1· = Suma de las respuestas al tratamiento I = 48.6 + … + 46.7 = 494.6
T2· = Suma de las respuestas al tratamiento II = 68.0 + … + 68.9 = 824.8
T3· = Suma de las respuestas al tratamiento I II = 67.5 + … + 60.5 = 826.8
T1· 494.6
X 1· = = Media muestral de las respuestas al tratamiento I = = 49.46
n1 10
T2· 824.8
X 2· = = Media muestral de las respuestas al tratamiento II = = 68.73
n2 12
T3· 826.8
X 3· = = Media muestral de las respuestas al tratamiento III = = 63.60
n3 13
T·· = Suma total de las respuestas = 2146.2
T·· 2146.2
X ·· = = Media muestral de todas las respuestas = = 61.32
N 35
Las medias muestrales observadas muestran diferencias aparentes en la respuesta media,
al menos del tratamiento I respecto de los otros dos. Veamos si estas diferencias
observadas son estadísticamente significativas. Es decir, vemos si estos datos apoyan la
hipótesis de que el porcentaje medio de mejoría varía según el tratamiento recibido
(H1), o si por el contrario, podemos asumir que la mejoría es independiente del
tratamiento recibido (H0).
Estos datos dan como resultado la siguiente tabla de descomposición de la variabilidad
(Tabla ANOVA):
Fuente Grados de libertad SS F p

Tratamiento 2 2133.66 262.12 < 0.01
Error 32 130.30
Total 34 2263.96
Observamos un valor p < 0.01 que nos lleva a rechazar la hipótesis de igualdad de
medias con una significación del 5%. Por tanto, tenemos evidencia estadística de que
los tres tratamientos difieren en el porcentaje medio de mejoría registrado al final de las
16 semanas de tratamiento.
Conviene hacer algunos comentarios sobre los supuestos del análisis de la varianza.
Suponemos que las poblaciones están normalmente distribuidas y que las varianzas
poblacionales son iguales. Existen diversos contrastes para comprobar estas
suposiciones. En capítulos posteriores estudiaremos la prueba K-S para comprobar
normalidad. También existen pruebas similares a la que hemos visto en el tema 6 para
comparar dos varianzas poblacionales, pero para el caso de más de dos poblaciones.
Una observación a tener en cuenta es que las consecuencias de no cumplir el supuesto
de varianzas iguales no son graves, siempre y cuando las muestras sean del mismo
tamaño. Además, si se rechaza H0 y se declaran distintas las medias poblacionales,
generalmente se necesitan nuevos contrastes. Muchos de estos están pensados para
muestras de igual tamaño.

El análisis de la varianza requiere una gran cantidad de cálculos manuales. En la
práctica todos estos resultados se obtienen mediante un software estadístico, por
ejemplo el SPSS, de forma que nuestra labor será localizar los resultados que nos
interesan y sacar conclusiones prácticas a partir de ellos.
El procedimiento de SPSS que nos permite realizar un análisis de la varianza de un
factor es >Analizar >Comparar medias >ANOVA de un factor. En el cuadro de diálogo
debemos seleccionar la variable continua sobre la cual se desea realizar el contraste de
diferencia de medias y el factor que nos establece los grupos. Es imprescindible que la
variable factor esté definida como numérica para utilizar el procedimiento, en otro caso
será necesario realizar una recodificación.
Ejemplo 7.3: Volviendo al experimento descrito el ejemplo 7.1. Vemos como realizar el
análisis de la varianza utilizando el SPSS.
Variable continua a analizar la media Factor para hacer los grupos
El botón Opciones me permite añadir algunas funciones al análisis realizado por

defecto, como por ejemplo solicitar el cálculo de algunos estadísticos descriptivos y el
contraste de homogeneidad de varianzas.
En este cuadro de dialogo puedo solicitar también un gráfico de las medias por grupos.
Los resultados ofrecidos por el SPSS vienen resumidos en las siguientes tablas
Descriptivos
Porcentaje de mejoría
Intervalo de confianza para
la media al 95%
Desviación Límite
N Media típica Error típico Límite inferior superior Mínimo Máximo
1 10 49,4600 1,73218 ,54776 48,2209 50,6991 46,70 52,50
2 12 68,7333 2,00061 ,57753 67,4622 70,0045 64,50 71,90
3 13 63,6000 2,22224 ,61634 62,2571 64,9429 60,50 67,50
Total 35 61,3200 8,16008 1,37931 58,5169 64,1231 46,70 71,90
La primera tabla nos proporciona algunos estadísticos descriptivos desglosados por

tratamiento. Vemos que el fichero consta de 35 individuos repartidos en los tres
tratamientos: 10, 12 y 13 individuos respectivamente. Además, observamos el valor
medio, el intervalo de confianza del 95% para éste, la desviación estándar, el error
estándar, el valor mínimo y el valor máximo de la respuesta en cada uno de los grupos.
ANOVA
Suma de Media
cuadrados gl cuadrática F Sig.
Inter-grupos 2133,665 2 1066,833 262,019 ,000
Intra-grupos 130,291 32 4,072
Total 2263,956 34
La segunda tabla nos muestra la tabla ANOVA para el contraste de igualdad en el

porcentaje medio de mejoría en los tres tratamientos. Vemos que esta tabla coincide
exactamente con la calculada manualmente en el apartado anterior. Un valor p < 0.05,
por tanto, tenemos evidencia estadística de que los tres tratamientos difieren en el
porcentaje medio de mejoría registrado al final de las 16 semanas de tratamiento.
Prueba de homogeneidad de varianzas
Estadístico
de Levene gl1 gl2 Sig.
,491 2 32 ,616
Finalmente, una tercera tabla nos muestra el contraste de igualdad de varianzas, que se
ha pedido de forma adicional, para comprobar que la hipótesis de igualdad de varianzas
exigida por el método es razonable. Observamos un valor p = 0.616 > 0.05 que nos lleva
a no rechazar la igualdad de varianzas en los tres tratamientos.
7.4. COMPARACIONES MÚLTIPLES

Una vez que se ha realizado un análisis de la varianza para comparar k medias
poblacionales, supongamos que se rechaza H0. Por tanto, llegamos a la conclusión de
que hay algunas diferencias entre las k medias poblacionales. En esta caso, el análisis de
los datos sólo ha empezado, ya que es natural continuar la investigación para tratar de
localizar con precisión donde está la diferencia.
Hay muchos métodos para detectar diferencias entre medias poblacionales una vez que
ha sido rechazada la hipótesis de igualdad. Estos contrastes no se van a describir aquí,
únicamente haremos unos comentarios muy breves sobre algunos de ellos. Pero si
conviene saber que SPSS realiza muchos de ellos, los cuales se describen con detalle en
el manual.
Las pruebas de rango identifican subconjuntos homogéneos de medias que no se
diferencian entre sí. Las comparaciones múltiples por parejas contrastan la diferencia
entre cada pareja de medias y dan lugar a una matriz donde los asteriscos indican las
medias de grupo significativamente diferentes a un nivel alfa de 0.05.
La prueba de la diferencia honestamente significativa de Tukey, la GT2 de Hochberg, la
prueba de Gabriel y la prueba de Scheffé son pruebas de comparaciones múltiples y
pruebas de rango. Otras pruebas de rango disponibles son Tukey b, S-N-K (Student-
Newman-Keuls), Duncan, R-E-G-W F (prueba F de Ryan-Einot-Gabriel-Welsch), R-E-
G-W Q (prueba de rango de Ryan-Einot-Gabriel-Welsch) y Waller-Duncan. Las
pruebas de comparaciones múltiples disponibles son Bonferroni, Diferencia
honestamente significativa de Tukey, Sidak, Gabriel, Hochberg, Dunnett, Scheffé, y
DMS (diferencia menos significativa). Las pruebas de comparaciones múltiples que no
suponen varianzas iguales son T2 de Tamhane, T3 de Dunnett, Games-Howell y C de
Dunnett.
7.3.1. MÉTODO DE BONFERRONI
Es una solución muy conservadora que consiste en elegir un nivel de significación de α
= αT/m en cada uno de los contrastes dos a dos, teniendo en cuenta que se van a realizar
m contrastes, cada uno de ellos con un nivel de significación α.
Si el número de contrastes a realizar, m, es grande, el nivel de significación requerido
para cada contraste es muy pequeño y se hace imposible detectar diferencias.
7.3.2. MÉTODO DE TUKEY
El método propuesto por Tukey, del cuál se han hecho numerosas variaciones, es uno de
los más potentes en detectar diferencias entre grupos. Su principal desventaja es que su
versión original únicamente se puede usar cuando los tamaños de las muestras son
iguales. Aunque SPSS realiza una variación, que puede también usarse para tamaños
distintos de los grupos.
7.3.3. MÉTODO DE SCHEFFÉ
Se puede usar cualesquiera que sean los tamaños de las muestras, iguales o no, y es
probablemente el método más difundido. Aunque hay que tener en cuenta, que para
tamaños de grupo iguales o similares, es más conservador que la prueba de Tukey.
7.3.4. MÉTODO DE DUNCAN
Es uno de los más antiguos y probablemente el más citado en la bibliografía.
Inicialmente fue diseñado para muestras iguales, pero C.Y. Kramer lo amplió
posteriormente para muestras de tamaño distinto.
Ejemplo 7.4: Volviendo a los datos del experimento definido en el ejemplo 7.1, hemos
visto en el ejemplo 7.3 que los tres tratamientos difieren en el porcentaje medio de
mejoría registrado al final de las 16 semanas de tratamiento.
Una vez rechazada la igualdad en el nivel de mejoría para los tres tratamientos, nos
preguntamos entre qué tratamientos existen diferencias. Este contraste se solicita
mediante el botón Post Hoc del cuadro de diálogo principal.
Donde podemos seleccionar el método de comparaciones múltiples que queremos

utilizar, en función de si se ha rechazado la igualdad de varianzas o no. En nuestro caso,
la igualdad de varianzas no se ha rechazado, por tanto nos limitaremos a seleccionar el
método deseado del primer bloque. También podemos seleccionar el nivel de confianza
que se desea en estos contrsates, siendo por defecto de 0.05. Se han solicitado los
métodos de Scheffé y Tukey. Los resultados obtenidos se muestran en la siguiente tabla.
Subconjunto para alfa = .05

TTO N 1 2 3
HSD de Tukeya,b 1 10 49,4600
3 13 63,6000
2 12 68,7333
Sig. 1,000 1,000 1,000
Schefféa,b 1 10 49,4600
3 13 63,6000
2 12 68,7333
Sig. 1,000 1,000 1,000
Se muestran las medias para los grupos en los subconjuntos
homogéneos.
a. Usa el tamaño muestral de la media armónica = 11,527.
b. Los tamaños de los grupos no son iguales. Se utilizará la media
armónica de los tamaños de los grupos. Los niveles de error de
tipo I no están garantizados.
Ambos métodos establecen tres subconjuntos homogéneos, es decir, detectan

diferencias estadísticamente significativas en el porcentaje de mejoría entre los tres
tratamientos.
Ejemplo 7.5: Se dispone de 105 pacientes participantes en un estudio del servicio de
Cirugía Vascular de un hospital. Entre otras variables, se ha recogido el nivel de
triglicéridos y el hábito al tabaco. El hábito al tabaco se ha recogido como: fumador,
exfumador o no fumador. Uno de los objetivos del estudio es estudiar si existe relación
entre el nivel medio de triglicéridos y el hábito al tabaco.
El contraste de hipótesis que debemos establecer para ver si existen diferencias en el
nivel medio de triglicéridos según el consumo de tabaco es:
H0: µFUMADOR = µEXFUMADOR = µNO FUMADOR
H1: Alguna de las medias difiere
Veamos los resultados obtenidos en SPSS para estos datos.

Descriptivos
TRI
Intervalo de confianza para
la media al 95%
Desviación Límite
N Media típica Error típico Límite inferior superior Mínimo Máximo
No 29 99,72 50,398 9,359 80,55 118,89 33 255
Ex 20 116,25 40,214 8,992 97,43 135,07 49 208
Si 56 139,20 74,044 9,895 119,37 159,03 40 418
Total 105 123,92 64,645 6,309 111,41 136,43 33 418
Una primera tabla descriptiva nos indica tres grupos bastante distintos en cuanto a
tamaño (29 no fumadores, 20 ex-fumadores y 56 fumadores) y en cuanto a nivel medio
de triglicéridos: 99.7 para no fumadores, 116.25 para ex-fumadores y 139.2 para

fumadores.
También podemos realizar un gráfico de estos datos,
150
140
130
120
110
Media de TRI
100
90
No Ex Si
FUMAR
Parece que existe una tendencia al aumento en el nivel medio de triglicéridos, para
fumadores y ex-fumadores, comparados con no fumadores.
ANOVA
TRI
Suma de Media
cuadrados gl cuadrática F Sig.
Inter-grupos 31223,008 2 15611,504 3,948 ,022
Intra-grupos 403384,382 102 3954,749
Total 434607,390 104
Una segunda tabla nos proporciona los resultados del contraste de igualdad de medias.
Vemos que p < 0.5 y por tanto rechazamos la hipótesis de que el nivel de triglicéridos es
independiente del consumo de tabaco.
Prueba de homogeneidad de varianzas
TRI
Estadístico
de Levene gl1 gl2 Sig.
1,883 2 102 ,157
La prueba de homogeneidad de varianzas no rechaza la hipótesis de igualdad. Por tanto,

solicitamos los contraste de Scheffé y Tukey para comparaciones múltiples.
Si observamos el resultado de las comparaciones múltiples entre cada dos subgrupos,
vemos ambos métodos identifican diferencias estadísticamente significativas en el nivel
medio de triglicéridos entre fumadores y no fumadores (marcadas con un asterisco en la
tabla). Sin embargo, el nivel medio de triglicéridos de los los ex-fumadores no difiere
significativamente ni del de los fumadores ni del de los no fumadores.
Comparaciones múltiples
Variable dependiente: TRI

Intervalo de confianza al
95%
Diferencia de Límite
(I) FUMAR (J) FUMAR medias (I-J) Error típico Sig. Límite inferior superior
HSD de Tukey No Ex -16,53 18,279 ,639 -60,00 26,95
Si -39,47* 14,387 ,019 -73,69 -5,25
Ex No 16,53 18,279 ,639 -26,95 60,00
Si -22,95 16,382 ,344 -61,91 16,02
Si No 39,47* 14,387 ,019 5,25 73,69
Ex 22,95 16,382 ,344 -16,02 61,91
Scheffé No Ex -16,53 18,279 ,666 -61,93 28,88
Si -39,47* 14,387 ,026 -75,21 -3,73
Ex No 16,53 18,279 ,666 -28,88 61,93
Si -22,95 16,382 ,378 -63,64 17,75
Si No 39,47* 14,387 ,026 3,73 75,21
Ex 22,95 16,382 ,378 -17,75 63,64
*. La diferencia entre las medias es significativa al nivel .05.
Sin embargo, si observamos los resultados de las pruebas de rango nos muestran
resultados diferentes según que método aplicamos.
El método de Tukey identifican dos grupos homogéneos: uno de ellos formado por los
fumadores y otro por los no fumadores, pudiendo estar los fumadores en uno u otro
indistintamente. Es decir, si quisiéramos crean una variable dicótoma para el consumo
de tabaco a partir de estos resultados, podríamos incluir a los ex-fumadores con
cualquiera de los otros dos grupos.
El método de Scheffé identifica un único grupo homogéneo, es decir no detecta
diferencias en el nivel medio de triglicéridos en función del consumo de tabaco (p =
0.06). Ya hemos comentado anteriormente que este método es más conservador que el
de Tukey, es por eso que diferencias estadísticamente significativas para uno no lo son
para el otro.
TRI
Subconjunto para alfa

= .05
FUMAR N 1 2
HSD de Tukeya,b No 29 99,72
Ex 20 116,25 116,25
Si 56 139,20
Sig. ,575 ,346
Schefféa,b No 29 99,72
Ex 20 116,25
Si 56 139,20
Sig. ,060
Se muestran las medias para los grupos en los subconjuntos
homogéneos.
a. Usa el tamaño muestral de la media armónica = 29,314.
b. Los tamaños de los grupos no son iguales. Se utilizará la
media armónica de los tamaños de los grupos. Los
niveles de error de tipo I no están garantizados.
A la vista de estos resultados, el método de Scheffé parece contradictorio. Inicialmente

el análisis de la varianza nos indica que hay diferencias en el nivel medio de
triglicéridos en función del consumo de tabaco. Después, las comparaciones múltiples
nos indican que las diferencias significativas están entre fumadores y no fumadores (p =
0.026). Pero, las pruebas de los rangos nos muestran que existe un único grupo
homogéneo (p = 0.06). Esta diferencia en los resultados es debida a que es más “fácil”
detectar diferencias entre dos grupos que establecer grupos homogéneos con una
diferencia significativa entre ellos. Es decir, los contrastes que se realizan en cada caso
no son equivalentes. En este caso, las diferencias entre fumadores y no fumadores se
establecen con un valor p muy cercano al nivel de significación, p = 0.026. De forma
que cuando el nivel de exigencia del contraste aumenta lo más mínimo este valor p pasa
a ser de p = 0.06, no significativo. Otra cuestión a tener en cuenta ante incongruencias
de este tipo es el tamaño muestral, a más muestra mayor potencia en el contraste y por
tanto, menor valor p.
Como ya hemos mencionado anteriormente, el investigador debe decidir qué método
utilizar en cada caso y limitarse a los resultados obtenidos con el método seleccionado.
Centrarnos en la búsqueda de la significación con diferentes métodos va en
contradicción con la propia filosofía de los contrastes múltiples. Mediante éstos, se
intenta evitar el problema de encontrar relaciones significativas por puro azar (5%) al
realizar muchos contrastes. Si solicitamos muchos contrastes, para muchos métodos,
este problema, lejos de solucionarse, se acentúa.
Regresión lineal y correlación Bioestadística con SPSS
Tema 8: REGRESIÓN LINEAL Y CORRELACIÓN
8.1. INTRODUCCIÓN
La correlación consiste en medir la fuerza de la relación lineal existente entre dos
variables aleatorias continuas. La regresión, sin embargo, implica necesariamente la
obtención de una ecuación mediante la cual pueda estimarse el valor medio de una
variable aleatoria (variable dependiente o respuesta), desde el conocimiento de los
valores tomados por una o más variables diferentes (variables independientes,
explicativas o covariables). Ambos conceptos están estrechamente relacionados,
especialmente cuando hablamos de regresión lineal simple, es decir cuando se considera
una única variable explicativa.
La regresión lineal simple fue introducida como técnica estadística a finales del siglo
XIX por Sir Francis Galton. Galton estaba interesado en la relación entre la altura de un
padre y la altura de sus hijos. Como muestra la siguiente figura, los hombres altos
tienden a tener hijos también altos. Aunque la altura media de los hijos es menor que la
altura media de los padres
Datos de Galton
76
74
Altura del hijo (pulgadas)
72
70
68
66
64
62
50 55 60 65 70 75 80
Altura del padre (pulgadas)
La ecuación que Galton usó fue:

altura del hijo = 28.63 + 0.595·altura del padre
Galton denominó a este fenómeno regresión. Este nombre se refiere desde entonces a
ajustar un modelo en el cual una variable respuesta (en este ejemplo, la altura del hijo)
se predice a partir de una o más covariables (en este ejemplo, la altura del padre).
El fenómeno denominado regresión, observado por Galton, tiene importantes
implicaciones en la interpretación de los resultados obtenidos, las cuales se discutirán en
apartados posteriores.
En este capítulo se va a desarrollar formalmente el modelo de regresión lineal, se van a
presentar las técnicas necesarias para realizar inferencia a través de los parámetros de
regresión y para realizar predicciones basándonos en el modelo sugerido.
En un modelo de regresión estamos interesados principalmente en una variable aleatoria

Y (altura del hijo). Se supone que el valor tomado por esta variable depende o está
influenciado por los valores tomados por una o más variables diferentes (altura del
padre). La variable Y se denomina variable dependiente o respuesta, mientras que las
variables que influyen en Y se denominan variables independientes, explicativas o
covariables. Al realizar estimaciones o predicciones, las covariables no se toman como
variables aleatorias. Por el contrario son entidades que pueden asumir valores
diferentes, pero cuyos valores, en el momento en que debe hacerse la predicción, no se
determinan al azar. Por ejemplo, volviendo a los datos de Galton, supóngase que
queremos obtener una ecuación para describir la altura del hijo. Puesto que la altura del
hijo depende en parte de la altura del padre, hay dos variables implicadas: X, altura del
padre e Y, altura del hijo. No estamos interesados en hacer inferencias sobre la altura del
padre. En cambio, queremos describir la altura del hijo bajo la suposición de que la
altura de su padre se conoce de antemano con precisión. En este ejemplo, la altura del
hijo sería la respuesta y la altura del padre la única covariable considerada.
Empezamos describiendo un estudio que puede ser analizado por la técnica regresión
lineal simple.
Ejemplo 8.1: Se han obtenido importantes ventajas del hecho de enseñar a los diabéticos
a medir su propia glucosa en sangre. Se investiga una nueva técnica menos costosa que
el procedimiento habitual. La técnica utiliza una varilla con la enzima glucosa oxidasa.
La varilla desarrolla dos colores simultáneamente y estos colores son comparados a
simple vista con una tarjeta que da el nivel de glucosa. Si se puede probar que este
procedimiento es preciso, se generalizará su uso. Con este objetivo, se recogen el nivel
de glucosa en sangre medido por un paciente diabético utilizando la varilla y el nivel de
glucosa en sangre del paciente medido en el laboratorio en minimoles por litro.
En este ejemplo el nivel de glucosa medido por el paciente con la varilla será la variable
explicativa X y el nivel de glucosa medido en el laboratorio será la variable
independiente Y.
Vamos a introducir la notación que utilizaremos a lo largo de este capítulo. Vamos a
tratar a la variable Y como dependiente de los valores de X. Por tanto, debemos admitir
que para una x dada estamos realmente tratando con una variable aleatoria condicional,
que indicamos mediante Y|x (Y dado que X = x). Esta variable aleatoria condicional tiene
una media que denotaremos por µY|x. Es razonable suponer que µY|x es una función de x.
Llamaremos recta de regresión de Y sobre X a la expresión gráfica de esta función.
El problema que se plantea es estudiar la forma de µY|x a partir de los datos obtenidos en
algunos valores seleccionados x1, x2, ...., xn de la variable explicativa X. El objetivo del
estudio es encontrar una ecuación de predicción o regresión razonable.
8.2. DESCRIPCIÓN DE LOS DATOS

Los datos observados en un modelo de regresión lineal simple son n pares de
mediciones, (yi, xi) para i = 1, 2, ..., n. Donde yi representa el valor de la variable
respuesta Y, y xi representa el valor de la covariable o variable explicativa X.
La parte más importante en el análisis de regresión es la construcción de la nube de
puntos de la variable Y respecto de la variable X. Este es un gráfico en el que se
representa la variable respuesta Y en el eje de ordenadas (vertical) y los
correspondientes valores de la variable explicativa X en el eje de abscisas (horizontal).
Este simple gráfico proporciona una impresión visual de la relación existente entre
ambas variables. Dado lo avanzado del software, no hay razón para no hacer una
representación gráfica de los datos antes de aventurarse a realizar ningún análisis.
Una vez realizado el gráfico de la nube de puntos de Y respecto de X, se observa si es
aceptable que esta nube de puntos representa más o menos una recta. Si esto es así,
podemos decir que ajustar estos datos por medio de una recta es razonable.
Ejemplo 8.2: Cuando se realizó el experimento descrito en el ejemplo 8.1, se obtuvieron
los siguientes datos. Recordamos que se recogen el nivel de glucosa en sangre medido
por un paciente diabético utilizando la varilla (X) y en el laboratorio (Y) en minimoles
por litro.
x y x y x y x y
1.3 2.4 3.2 4.4 7.0 7.7 15.0 14.9
2.0 3.0 3.6 4.3 8.0 8.0 15.0 13.8
2.4 2.3 3.7 4.3 8.0 10.0 17.5 17.6
2.6 3.0 3.7 5.0 10.0 10.0 18.7 17.5
2.5 2.2 3.8 4.4 10.2 9.5 6.0 6.0
2.6 2.4 4.4 4.5 10.2 11.2 8.7 8.8
2.7 2.5 4.3 5.0 12.5 11.0 5.6 5.7
3.0 3.8 5.0 4.5 11.3 13.0 9.1 9.0
3.7 2.5 5.0 6.2 13.0 13.1 16.2 12.5
3.7 3.5 6.3 6.2 14.5 13.8 9.0 14.0
La nube de puntos recogida en el siguiente gráfico se obtiene señalando los valores de la
variable independiente X a lo largo del eje horizontal y los de la variable dependiente Y
a lo largo del eje vertical. Incluso si estos puntos no están sobre una línea recta, hay una
tendencia lineal. La tendencia es lo que estamos buscando. Por tanto, el método de
regresión lineal simple es aplicable a este problema.
Nivel de glucosa
20
18
16
14
12
10
6
Laboratorio
0
0 2 4 6 8 10 12 14 16 18 20
Varilla
8.3. REGRESIÓN LINEAL SIMPLE

8.3.1. MODELO
Cuando hablamos de regresión lineal simple significa que intentamos obtener una
ecuación mediante la cual pueda predecirse el valor de la variable dependiente Y,
basándonos en el conocimiento del valor tomado por una única variable independiente
X. Si se utilizara más de una variable independiente para predecir el valor de Y entonces
utilizaremos el término regresión lineal múltiple.
Un modelo de regresión lineal simple de Y sobre X tiene la siguiente forma:
Y = β 0 + β 1X + ε
(Y = Parte sistemática + Parte aleatoria)
Este modelo consta de dos componentes, una componente sistemática, que define la
dependencia lineal de Y en X (β0 + β1X) y una componente aleatoria que mide el error
que se comete al estimar Y mediante X. La componente aleatoria viene dada por ε, que
se denomina error aleatorio o perturbación.
En general, para una muestra de n individuos el modelo de regresión lineal simple se
formula de la siguiente manera. La respuesta Y1, Y2, ..., Yn se puede representar como
Yi = β0 + β1xi + εi
donde εi son variables aleatorias independientes, con distribución normal, esperanza 0 y
varianza σ2. Es decir,
E(Yi) = µi
Var(Yi) = σ2
La componente sistemática del modelo de regresión lineal simple asume que hay una
relación de línea recta (lineal) entre el valor esperado de Y, E(Y), y la covariable X. Es
decir, que el gráfico de la media de la variable dependiente Y, para valores dados de la
variable independiente X, es una línea recta.
µY|X = β0 + β1X
Es decir, el modelo de regresión lineal simple asume que la relación teórica entre las
variables X e Y viene determinada por una línea recta, que llamaremos recta de
regresión. En este modelo hay tres parámetros: β0, β1 y σ2. Los parámetros reales β0 y
β1 se denominan término independiente y pendiente de la recta, respectivamente. El
parámetro σ2 describe la variabilidad de la distribución de Y para cualquier valor de la
covariable X.
Sin embargo, en la práctica, se desconoce cual es la relación funcional exacta, es decir
no se conocen los valores que toman los parámetros β0 y β1. Estos parámetros se
estiman mediante los datos observados de X e Y en la muestra seleccionada.
8.3.2. ESTIMACIÓN DE LOS PARÁMETROS
Al método empleado para estimar β0 y β1 se llama el método de mínimos cuadrados.
El razonamiento que está detrás de los mínimos cuadrados es muy sencillo. De las
muchas líneas rectas que pueden trazarse a través de la nube de puntos, conviene elegir
aquella que “mejor se ajusta” a los datos. El ajuste es el mejor en el sentido de que los
valores elegidos para los parámetros serán aquellos que minimicen la suma de los
cuadrados de las distancias entre los datos puntuales y la recta de regresión ajustada. De
esta forma estamos determinando la línea recta que está tan próxima como sea posible a
todos los datos puntuales simultáneamente. Intuitivamente, por medio de este método se
pretende minimizar la suma de distancias verticales de cada punto a la recta de
regresión.
Una vez estimados los parámetros de la recta de regresión, obtenemos una expresión
para el modelo estimado
Y = β̂ 0 + β̂ 1 X + e
(Y = Parte sistemática + Parte aleatoria)
El modelo estimado tiene la misma forma que el modelo teórico, solo que en este caso
los valores de β̂ 0 y β̂ 1 son conocidos, pues pueden calcularse a través de los valores
obtenidos de X e Y.
Denotamos la recta de regresión estimada de Y sobre X por la siguiente expresión:
ŷ i = β̂ 0 + β̂ 1 x
Esta recta nos permite calcular los valores esperados o valores medios de Y, que se
denotan ŷ i , en función de los valores de X.
La estimación del error se denomina residuo, se denota por ei y mide la distancia entre
un dato puntual y el valor estimado por la recta de regresión, ei = y i − yˆ i . Los residuos
son en el modelo ajustado el equivalente a los errores en el modelo poblacional.
Las propiedades de los valores esperados nos permitirán responder a preguntas
científicas sobre la relación entre la covariable y la variable respuesta. Las propiedades
de los residuos nos permitirán juzgar la adecuidad del modelo ajustado y las hipótesis
del modelo aleatorio.
La suma de los cuadrados de las diferencias entre los datos puntuales y la recta de
regresión ajustada se denota por SSE y no es sino la suma de los cuadrados de los
residuos.
n n
SSE = ∑ ei2 = ∑ ( y i − ( βˆ 0 + βˆ1 xi )) 2
i =1 i =1
El método de estimación por mínimos cuadrados establece cuales son los valores de β̂ 0
y β̂ 1 que minimizan la expresión anterior. Estos valores se denominan estimadores
mínimo cuadráticos de los parámetros de regresión y son:
βˆ o = y − βˆ1 x
n
∑ (x i − x )( y i − y )
βˆ1 = i =1
n
∑ (x
i =1
i − x) 2
El valor β̂ 1 , representa la ganancia esperada en la variable Y por cada unidad de

ganancia en la variable X. Valores positivos de β̂ 1 indican que cuando X crece Y
también crece, valores negativos de β̂ 1 indican que cuando X crece Y disminuye y β̂ 1 =
0 indica que no hay relación lineal entre X e Y. El término β̂ 0 , representa el valor de Y

cuando X = 0. Dependiendo de la situación, esto puede no tener ningún sentido, por
tanto la interpretación de β̂ 0 debe ser muy cautelosa.
Debemos resaltar que un conjunto de datos proporciona una prueba de linealidad
solamente sobre aquellos valores de X cubiertos por el conjunto de datos. Para valores
de X fuera del rango considerado no hay evidencia de linealidad. Es peligroso, por tanto,
utilizar una recta de regresión estimada para predecir valores de Y correspondientes a
valores de X que estén fuera del rango considerado en el conjunto de datos.
Al escribir la recta de regresión estimada, estamos subrayando el hecho de que los
puntos sobre la recta representan la respuesta media estimada cuando la variable
predictora asume el valor de x. Al leer los resultados de un estudio de regresión hay que
ser cuidadoso. La ecuación obtenida es la ecuación del valor medio de Y como función
de x. Se utiliza para estimar tanto la respuesta media como la individual cuando la
covariable asume el valor x.
8.3.3. INFERENCIA SOBRE LOS PARÁMETROS
La desviación estándar de β̂ 0 y β̂ 1 se puede estimar de la siguiente manera
 
1 x 2 
DE ( β 0 ) = σ
ˆ ˆ 2
 + 
n n 2 


∑
i =1
( xi − x ) 

σˆ 2
DE ( βˆ1 ) = n
∑ (x
i =1
i − x)2
donde σ̂ 2 es el estimador de σ2, varianza de la variable y, que viene dado por

n
∑e 2
i
SSE
σˆ 2 = i =1
=
n−2 n−2
Hemos obtenido estimaciones puntuales de β0 y β1 por medio de β̂ 0 y β̂ 1 . De la misma
forma que para cualquier otro parámetro, podemos deducir los intervalos de confianza
del (1 - α)100% de β0 y β1 a partir de las expresiones dadas para la desviación estándar
de β̂ 0 y β̂ 1 .
σˆ 2
I β11−α = β̂ 1 ± tα/2; (n –2) n
∑ (x
i =1
i − x)2
 
1 x 2 
I β1−0 α = β̂ 0 ± tα/2; (n –2) σˆ 2  + n 
n 2 
 ∑i =1
( xi − x ) 

donde tα/2; (n –2) es el valor crítico de una distribución t de Student con n−2 grados de
libertad. Es decir el valor que deja hacia su derecha un área de α/2 bajo la curva de la
distribución t de Student con (n – 2) grados de libertad..
8.3.4. TABLA ANOVA Y CONTRASTES DE REGRESIÓN
Existe una técnica de análisis de la varianza que se utiliza para comprobar si una línea
recta muestra una cantidad significativa de la variabilidad observada de Y. La tabla del
análisis de la varianza (tabla ANOVA) para el modelo de regresión lineal simple es la
siguiente:
Procedencia Grados de libertad Suma de cuadrados (SS)

n
Modelo 1 SS ( x) = ∑ ( yˆ i − y ) 2
i =1
n
Error n–2 SSE = ∑ ( yˆ i − y i ) 2

i =1
n
Total n–1 SST = ∑ ( y i − y ) 2

i =1
Las cantidades expresadas en la tabla representan:

SS(X) = Suma de cuadrados debida a la covariable X y representa la variabilidad en Y
asociada a la relación lineal entre X e Y.
SSE = Suma de cuadrados debida al error y representa la variabilidad aleatoria de Y.
SST = Suma de cuadrados total y representa la variabilidad total de Y.
Se demuestra analíticamente que se cumple la siguiente igualdad
SST = SS(X) + SSE
De forma que si el supuesto de regresión lineal es válido, entonces SS(X) explicará la
mayor parte de la variabilidad de Y, siendo aleatoria o no explicada solamente una
cantidad pequeña.
La hipótesis de que la covariable no es importante en la respuesta (X no tiene influencia
sobre Y) es equivalente a la hipótesis de que β1 = 0, es decir el contraste de hipótesis
H0 : β 1 = 0
H1 : β 1 ≠ 0
se puede realizar de cualquiera de las siguientes maneras:
• Test de razón de verosimilitud: También denominado contraste general de
regresión. Por medio del estadístico F
SS ( x)
Fobs = 1
SSE
( n − 2)
que sigue una distribución F de Fisher-Snedecor con 1 y n − 2 grados de libertad.
Es decir, p = P ( F1,( n − 2) > Fobs )
• Test de Wald: Por medio del estadístico t
βˆ 1
t obs =
DE (βˆ 1 )
que sigue una distribución t de Student con n − 2 grados de libertad.
2 P (t n − 2 > t obs ) si t obs > 0
Es decir, p = 
2 P (t n − 2 < t obs ) si t obs < 0
Observación: Los dos contrastes anteriores son equivalentes.

Como se ha visto en las fórmulas anteriormente mencionadas, la aplicación del método
de regresión lineal simple requiere una gran cantidad de cálculos manuales. En la
práctica todos estos resultados se obtienen mediante un software estadístico, por
ejemplo el SPSS, de forma que nuestra labor será localizar los resultados que nos
interesan y sacar conclusiones prácticas a partir de ellos.
El procedimiento de SPSS que nos permite realizar un análisis de regresión lineal es
>Analizar >Regresión >Lineal. En el cuadro de diálogo debemos seleccionar las
variables dependiente e independiente que queremos introducir en el modelo en las
casillas creadas con este fin. Los botones Estadísticos y Gráficos nos permiten
seleccionar los estadísticos o gráficos que queremos obtener, además de la recta de
regresión y la tabla ANOVA que se ofrecen por defecto. El botón Guardar nos permite
añadir a nuestras bases de datos cualquier variable que se ha creado en el proceso de
estimación, por ejemplo los valores esperados o los residuos. El botón Opciones permite
controlar mejor el proceso de estimación mediante funciones que rara vez se utilizan en
regresión lineal simple, y que sin embargo son muy útiles en regresión lineal múltiple.
Este último me permite también estimar la recta de regresión sin término independiente
β 0.
Ejemplo 8.3: Continuamos con el análisis de los datos del experimento descrito en el
ejemplo 8.1. Vamos a realizar un análisis de regresión lineal simple de estos datos en
SPSS.
Mediante el botón Estadísticos seleccionamos las opciones Estimaciones e Intervalos de

confianza de los parámetros de regresión y la opción Ajuste del modelo, que me
proporcionará la tabla ANOVA y una segunda tabla de resumen del modelo que
introduciremos en la sección 8.5.
Los resultados generales obtenidos son las siguientes dos tablas.
ANOVAb
Suma de Media
Modelo cuadrados gl cuadrática F Sig.
1 Regresión 762,149 1 762,149 520,568 ,000a
Residual 55,635 38 1,464
Total 817,784 39
a. Variables predictoras: (Constante), X
b. Variable dependiente: Y
La primera es la tabla ANOVA, donde aparece el contraste general de regresión

mediante el estadístico F. En este caso p < 0.05 indica que la relación lineal existente
entre el nivel de glucosa medido por el paciente con la varilla y el medido en el
laboratorio es estadísticamente significativa.
Coeficientesa
Coeficientes
Coeficientes no estandarizad Intervalo de confianza para
estandarizados os B al 95%
Límite
Modelo B Error típ. Beta t Sig. Límite inferior superior
1 (Constante) ,858 ,352 2,440 ,019 ,146 1,570
X ,912 ,040 ,965 22,816 ,000 ,832 ,993
a. Variable dependiente: Y
La segunda tabla nos ofrece las estimaciones de los parámetros, junto con sus
desviaciones estándar, su significación y su intervalo de confianza. Vemos que un
aumento de una unidad en el nivel de glucosa medido por la varilla está asociado a un
aumento medio de 0.912 en el nivel de glucosa real, siendo este aumento
estadísticamente significativo (p < 0.05) y estando con una confianza del 95% entre
0.832 y 0.993. La interpretación del término independiente sería el nivel de glucosa real
esperado cuando la medición de la varilla es cero, el cual no tiene mucho interés.
8.5. CORRELACIÓN
Hemos estudiado la forma de predecir los valores de una variable Y en función de los
valores de otra variable X. A menudo, el interés reside en conocer si existe o no relación
entre las dos variables. Si lo que se está buscando es la existencia o no de una relación
lineal, el parámetro a utilizar es el coeficiente de correlación.
8.5.1 COEFICIENTE DE CORRELACIÓN LINEAL
La medida de asociación lineal entre dos variables más frecuentemente utilizada es el
coeficiente de correlación lineal de Pearson. Este parámetro se define en términos de
covarianza entre X e Y, que es una medida de la forma en que X e Y varían
conjuntamente. Sin embargo este parámetro no está acotado, puede asumir cualquier
valor real. Para corregir este problema, dividimos la covarianza de X e Y entre el
producto de sus desviaciones estándar. De esta forma el coeficiente de correlación
lineal de Pearson entre X e Y se define de la siguiente forma:
Cov ( X , Y )
ρ=
Var ( X )·Var (Y )
Debemos tener en cuenta que Cov(X, Y), Var(X) y Var(Y), y por tanto también ρ, son
parámetros teóricos. Consecuentemente, no pueden calcularse sin el conocimiento de la
distribución de probabilidad de las variables X e Y. El problema estadístico es estimar
sus valores a partir de un conjunto de datos.
Sean (yi, xi) n pares de mediciones para i=1, 2, ..., n. Donde yi representa el valor de la
variable respuesta Y, y xi representa el valor de la covariable o variable explicativa X. La
estimación de ρ, coeficiente de correlación lineal de Pearson entre X e Y, a la que se
designa r, es el siguiente
n
∑ (x i − x )( y i − y )
r = ρ̂ = i =1
n n
∑ (x ∑ (y
2 2
i
− x) i
− y)
i =1 i =1
Observación : r mide la asociación lineal entre X e Y. Es decir, X e Y pueden estar

exactamente relacionados de forma no lineal, siendo su coeficiente de correlación lineal
igual a 0
Ejemplo 8.4: Supongamos los datos de la siguiente tabla. r = 0, y sin embargo X e Y
están relacionados por medio de la relación funcional cuadrática y=x2.
x -2 -1 0 1 2
y 4 1 0 1 4
La magnitud de r2 se interpreta en función del campo científico en el que se desarrolle el

problema. La siguiente figura da una escala sugerida para interpretar r. (J. S. Milton.
Estadística para Biología y Ciencias de la Salud. Interamericana-McGraw-Hill, 1994).
Fuerte Moderado Débil Débil Moderado Fuerte

− − − + + +
-1 -0.9 -0.5 0 0.5 0.9 1

Por ejemplo una correlación de 0.5 se considera una correlación positiva moderada,
mientras que una correlación de -0.9 se considera una correlación negativa fuerte. La
escala presentada aquí no es “la ley”, solo es una interpretación sugerida. Los
coeficientes de correlación son, en cierta medida, dependientes del objeto en cuestión.
En experimentos con seres humanos o en estudios de campo observacionales,
habitualmente se observan coeficientes de correlación bastante bajos. Sin embargo,
estos valores bajos aún pueden ser considerados altamente informativos para el experto
en la materia.
En experimentos de laboratorio biológico o químico controlados cuidadosamente, se
puede esperar que los coeficientes de correlación sean muy altos. Por ejemplo, en
química analítica, durante el estudio de las calibraciones y la verificación del métodos
dentro de determinados intervalos, se obtienen linealidades muy buenas. A menudo se
habla del número de nueves que presenta el coeficiente r encontrado. Así, es posible
calificar de ajuste muy deficiente una r entre 0.9 y 0.99, o exigir que r supere el valor
0.999 para considerar un ajuste aceptable.
No hay que olvidar nunca que una alta correlación entre x e y puede ser debida a: una
relación causal real entre x e y; a una tercera variable que afecta a ambas, x e y; o
incluso a que la muestra obtenida es muy extraña, y en realidad x e y no están
relacionadas.
Los paquetes estadísticos que calculan r, generalmente incluyen un contraste de
significación de ρ de la forma:
H0: ρ = 0
H1: ρ ≠ 0
Este contraste debe verse con precaución. Sólo comprueba si X e Y están o no
correlacionados. De ninguna forma contrasta si la correlación que existe tiene alguna
importancia práctica. Para un conjunto de datos grande, se puede comprobar que una
correlación de 0.05 es diferente de cero. Sin embargo, cómo hemos mencionado
anteriormente, esta correlación se considera débil. Verá en artículos de investigación
que ciertas correlaciones son estadísticamente significativas. Esto generalmente
significa que se ha realizado el contraste anterior y se ha rechazado H0: la correlación no
es cero. Sin embargo, usted puede juzgar por sí mismo desde el punto de vista del
contenido si la correlación tiene o no algún sentido práctico.
El procedimiento de SPSS que nos permite realizar un análisis de correlación es
>Analizar >Correlaciones >Bivariadas. En el cuadro de diálogo únicamente debemos
seleccionar las variables entre las cuales queremos estudiar la correlación. La opción
Pearson calculará el coeficiente de correlación lineal de Pearson. La opción Prueba de
significación realizará el contraste de hipótesis mencionado anteriormente sobre la
significación del coeficiente de correlación.
Ejemplo 8.5: Continuamos con los datos del ejemplo 8.1. Supongamos ahora, que
queremos estudiar la correlación lineal entre las dos mediciones de glucosa en sangre, la
medida por el paciente diabético utilizando la varilla y la medida en el laboratorio.
La siguiente tabla muestra el cuadro de diálogo utilizado para realizar un análisis de
regresión con SPSS.
El resultado ofrecido por SPSS es una única tabla, donde aparece la matriz de
correlaciones entre las variables X e Y. Los datos que aparecen son el coeficiente de
correlación lineal de Pearson observado, 0.965 y su significación (p < 0.05), además del
tamaño de la muestra analizada (n = 40). Estos datos indican que la correlación
existente entre ambos métodos de medición del nivel de glucosa en sangre es muy alta.
Es decir, parece razonable pensar que la precisión del método de medición mediante la
varilla es estadísticamente significativa.
Correlaciones
X Y
X Correlación de Pearson 1 ,965**
Sig. (bilateral) . ,000
N 40 40
Y Correlación de Pearson ,965** 1
Sig. (bilateral) ,000 .
N 40 40
**. La correlación es significativa al nivel 0,01
(bilateral).
8.5.2. COEFICIENTE DE DETERMINACIÓN
Volviendo al modelo de regresión lineal simple, veamos cuál es la relación entre el
método descrito y el coeficiente de correlación de Pearson.
El supuesto de linealidad se ha dado por válido a la hora de calcular la recta de
regresión de Y sobre X. Necesitamos un método analítico para determinar la bondad de
ajuste de la línea recta a los datos puntuales. El coeficiente de determinación es un
estadístico que se utiliza para evaluar la fuerza de la relación lineal existente entre X e Y,
tanto en una determinación de regresión como de correlación.
Si ajustamos el modelo de regresión lineal simple de Y sobre X, la proporción de
variabilidad en Y explicada por X viene dada por la siguiente expresión
2
 n 

SS ( x) Variación de Y debida a la linealidad 
∑i =1
( x i − x )( y i − y ) 

= =  =r
2
SST Variación total en Y 

n n
 ∑ ( x i − x ) 2 ∑ ( y i − y ) 2 
 i =1 i =1 
donde r es el coeficiente de correlación lineal de Pearson entre X e Y.
Es decir, el cuadrado del coeficiente de correlación lineal de Pearson entre X e Y nos da

la proporción de variabilidad en Y explicada por X. Esta cantidad se denomina
coeficiente de determinación y se denota por R2. En el caso de regresión lineal simple
el coeficiente de determinación coincide con el cuadrado del coeficiente de correlación
lineal de Pearson entre X e Y.
La mayoría de los paquetes estadísticos generalmente incluyen un coeficiente de
determinación ajustado, que denotaremos por R 2 . El coeficiente de determinación
ajustado es una alternativa al coeficiente de determinación R2, que es ajustado por el
número de parámetros en el modelo. El R2 ajustado se calcula mediante la siguiente
fórmula:
(n − i )(1 − R 2 )
R 2 = 1−
( n − 2)
donde n representa el número de individuos en la muestra e i es una variable indicador
que toma el valor uno si se incluye término independiente en la ecuación y el valor cero
en otro caso.
Ejemplo 8.6: Continuamos con los resultados obtenidos en el ejemplo 8.3. Como ya
hemos mencionado en este ejemplo, la opción ajuste del modelo me proporciona una
tabla de resumen del ajuste, donde aparecen el coeficiente de correlación lineal de
Pearson, el coeficiente de determinación R2 y el coeficiente de determinación ajustado
R2.
Resumen del modelo
R cuadrado Error típ. de la

Modelo R R cuadrado corregida estimación
1 ,965a ,932 ,930 1,2100
a. Variables predictoras: (Constante), X
Vemos que el valor de r = 0.965 coincide con el que hemos calculado en el ejemplo 8.5.
El coeficiente de determinación R2 = 0.932 y el coeficiente de determinación ajustado,
ligeramente menor, R 2 = 0.930. Este resultado me indica que la medición de nivel de
glucosa en sangre efectuada por el paciente con la varilla recoge el 93% de la
variabilidad existente en la medición de laboratorio.
8.6. DIAGNOSIS DEL MODELO DE REGRESIÓN LINEAL

El modelo de regresión lineal simple se ha definido en base a unos supuestos teóricos
sobre los errores. Recordemos que se supone que los εi son variables aleatorias
independientes, con distribución normal, esperanza 0 y varianza σ2. Es decir,
E(Yi) = µi
Var(Yi) = σ2
Estas hipótesis teóricas deben ser contrastadas antes de utilizar, interpretar y sacar
conclusiones basadas en los resultados obtenidos del modelo de regresión lineal.
Los errores son variables aleatorias inobservables y por tanto, no podemos comprobar
las hipótesis sobre ellos. Como ya se ha mencionado, los errores son estimados por los
residuos y es en éstos donde comprobaremos el cumplimiento de las hipótesis.
Se definen los residuos estandarizados o tipificados como

ei
Var (e i )
Si las hipótesis del modelo son apropiadas los residuos deben corresponder
aproximadamente a una distribución normal de media 0 y varianza 1. Es decir, un
histograma de los residuos estandarizados debe mostrar una distribución simétrica
centrada en 0 y los valores mayores que ±3 deben ser examinados con mayor detalle.
El SPSS permite guardar los residuos, mediante la opción Guardar, para posteriormente
poder realizar un análisis gráfico de éstos. También se puede utilizar la opción Gráficos
para realizar un análisis gráfico directamente en el procedimiento de análisis de
regresión.
En el capítulo 10 veremos métodos estadísticos específicos para comprobar que los
residuos siguen una distribución normal. Estos métodos se denominan técnicas de
bondad de ajuste.
La hipótesis de varianza constante no es fácilmente contrastable. Sin embargo, la mayor
parte de las situaciones en que esta hipótesis no se verifica es por que la varianza de la
variable Y depende de los valores de la variable independiente X. Esta situación se
observa realizando un análisis gráfico de los valores esperados ŷ i o de los residuos con
respecto a los valores de X.
Ejemplo 8.7: Vamos a realizar un análisis gráfico de los residuos estandarizados
obtenidos en el análisis realizado en el ejemplo 8.3. Pedimos a SPSS que guarde los
residuos tipificados y representamos el histograma y la nube de puntos de estos frente a
los valores de X
25
20
15
10
5
Desv. típ. = ,99
Media = 0,00
0 N = 40,00
-4,00 -3,00 -2,00 -1,00 0,00 1,00 2,00 3,00 4,00
Residuos estandarizados
1
Residuos estandarizados
0
-1
-2
-3
0 10 20
En principio estos gráficos no indican ninguna desviación de las hipótesis de

normalidad y varianza constante. El histograma indica un ligero sesgo a la derecha,
aunque éste no parece ser muy acentuado. El gráfico de dispersión muestra un valor de
los residuos entre 2 y 3 y otro mayor de 3 en valor absoluto, lo cual está dentro de lo
aceptable por puro azar. El resto de valores muestran una varianza muy similar en todo
el rango de valores de X.
8.7. APLICACIÓN DEL MODELO DE REGRESIÓN LINEAL AL ANÁLISIS

INSTRUMENTAL: CURVAS DE CALIBRACIÓN
El análisis de regresión lineal simple es un método ampliamente utilizado en el campo
del análisis instrumental en prácticas de laboratorio. En la siguiente figura podemos
observar unos puntos donde se representan: en ordenadas la señal instrumental medida
(absorbancia, cuentas, corriente eléctrica, carga eléctrica,...) y en abscisas la
concentración del analito (ng/L, moles/L, ppm,...).
Este tipo de gráfico se denomina comúnmente curva de calibración. Una curva de

calibración se basa en representar la señal de nuestro instrumento (ordenadas) para
patrones cuya concentración de analito conocemos (abscisas). En el grafico los puntos
rojos proceden de la lectura de los patrones, la recta es la recta de regresión lineal

simple calculada a partir de los puntos rojos, y el punto azul, que está sobre la recta, es
la respuesta esperada del instrumento para la concentración dada.
El modelo de regresión lineal simple desarrollado en las secciones anteriores nos
permite calcular la curva de calibración (recta de regresión) y los límites de confianza
para la pendiente y la ordenada en el origen. Concretamente en el campo del análisis
instrumental, la sensibilidad de un instrumento o método se define como su capacidad
para discriminar entre pequeñas diferencias en la concentración de un analito, de
manera que a la pendiente de la recta ( β̂ 1 ) se le llama habitualmente sensibilidad y
representa la cantidad más pequeña de concentración que es posible medir con este
instrumento. La ordenada en el origen ( β̂ 0 ) se le llama señal estimada del blanco y
representa la señal esperada de nuestro instrumento cuando la concentración del analito
es nula.
Al utilizar el modelo de regresión lineal simple para calcular una curva de calibración,
debemos recordar las hipótesis del modelo de regresión lineal.
1. El modelo lineal es válido. Debemos determinar el intervalo de concentraciones
para el cual la relación entre la concentración y la medida instrumental es lineal.
2. Todas las medidas tienen igual desviación estándar, la cual no depende del valor de
la señal observada, por lo tanto, las señales altas tendrán igual desviación estándar
que las bajas.
3. Las medidas están normalmente distribuidas. En general, esta es una hipótesis
plausible, pues el error en una medida analítica es una suma de errores
independientes provenientes de distintas partes del instrumento.
4. Todas las medidas deben ser independientes unas de otras. Cualquier tendencia de
las señales a través del tiempo invalida el calibrado.
Además, la incertidumbre en la concentración de los patrones debe ser despreciable
frente a la desviación estándar de la señal medida. Para ello, los patrones de calibrado
deben ser preparados con una precisión superior a la medición de la señal.
De las cuatro hipótesis anteriores debemos prestar especial atención a las dos primeras.
Para determinar el intervalo de concentración para el cual el modelo lineal es aceptable
podemos basarnos en el análisis de los residuos, en el coeficiente de correlación lineal
de Pearson o en el contraste general de regresión. Los residuos representan a los
errores, por tanto deben estar distribuidos aleatoriamente en aproximadamente una
franja de valores entre –2 y 2. Si esto no es así, y observamos algún patrón específico en
la distribución de los residuos debemos sospechar de incumplimiento de la hipótesis de
linealidad y disminuir el rango de trabajo o buscar otro modelo teórico. Como hemos
dicho en las sección 8.5, aunque un coeficiente de correlación lineal alto no indique
necesariamente una buena relación lineal entre la medida instrumental y la
concentración, es un indicio adicional que podemos añadir al análisis de los residuos.
Por último, el contraste general de regresión que aparece en la tabla ANOVA es otro
indicio de bondad de ajuste del modelo lineal.
De las cuatro hipótesis la más débil es la segunda, por que en general a bajas
concentraciones, la precisión de las medidas empeora. Una buena aproximación puede
realizarse restringiendo el intervalo en el cual se realiza la curva de calibración, de
manera que la precisión sea constante. En otro caso, bajo sospecha de incumplimiento
de la hipótesis de varianza constante, se debe utilizar el método de mínimos cuadrados

ponderados.
Una vez que hemos comprobado el cumplimiento de las cuatro hipótesis básicas del
modelo y hemos calculado la curva de calibración a partir de los patrones, debemos
calcular los errores aleatorios y límites de confianza para la concentración determinada
de una muestra incógnita. En el cálculo de la concentración utilizamos la siguiente
expresión derivada directamente de la ecuación de la recta:
y 0 − βˆ 0
x0 =
βˆ1
Donde x0 es la concentración de la muestra incógnita e y0 es la señal que genera la

misma muestra.
Es complicado obtener una expresión analítica simple para la desviación estándar
asociada a x0. Una aproximación, en función del número de lecturas de y0 realizadas, m,
viene dada por la siguiente expresión.
σˆ 1 1 ( y0 − y ) 2
DE ( x0 ) = + +
βˆ1 m n ˆ2 n
β (x − x)2
1 ∑
i =1
i
Entonces, los límites de confianza para x0 se calculan como:

I 1x−0 α = (x0 − tα / 2;( n − 2) ⋅ DE ( x0 ), x0 + tα / 2;( n − 2) ⋅ DE ( x0 ) )
La siguiente gráfica muestra la forma general de los límites de confianza para una
concentración dada empleando una recta de regresión.
Ejemplo 8.8: Una aplicación real del método de regresión lineal por mínimos cuadrados
consiste en la determinación de la concentración de quinina en bebidas refrescantes de
tónica empleando valores de absorbancia. Para obtener los valores de la siguiente tabla
se analizan una serie de patrones de concentración de quinina. Cada patrón da lugar a
una absorbancia que se mide, respecto a un blanco (solución que no contiene analito),
mediante un espectrofotómetro de radiación ultravioleta.
Patrón (µg/mL) Absorbancia
5 0,0705
10 0,1743
20 0,3155
30 0,4957
40 0,7145
50 0,8729
60 1,0642
Un gráfico de los valores de absorbancia frente a la concentración de los patrones de

quinina nos permite comprobar que la linealidad se verifica en el intervalo estudiado.
Una tabla resumen del modelo de regresión lineal simple nos permita calcular la
sensibilidad o pendiente de la recta, 0.018 y su intervalo de confianza del 95 % (0.017,
0.019) y la señal del blanco u ordenada en el origen –0.024 y su intervalo de confianza
del 95 % (-0.057, 0.009). También podemos calcular el valor del coeficiente de
correlación r = 0.999, calificando el ajuste como muy bueno.
Resumen del modelo y estimaciones de los parámetros
Variable dependiente:Absorbancia
Resumen del modelo Estimaciones de los parámetros

Ecuación R cuadrado F gl1 gl2 Sig. Constante b1
Lineal ,998 2565,207 1 5 ,000 -,024 ,018
La variable independiente es Concentración de quinina.
Podemos también calcular cuantos microgramos de quinina por mililitro contiene una
bebida de tónica de una muestra problema cuya absorbancia es de 0.5136 de la siguiente
manera: x0 = (0.5136 + 0.024) / 0.018 = 29.87. Para calcular un intervalo de confianza a
esta concentración de quinina utilizamos las formulas anteriores
0.0178817 1 (0.5136 − 0.529657) 2
DE ( x0 ) = + = 0.6855
0.018 7 0.018·2521.428
I x00.95 = (x0 − t 0.025;7 ⋅ DE ( x0 ), x0 + t 0.025;7 ⋅ DE ( x0 ) ) =
= (29.87 − 2.571·0.6855,29.87 + 2.571·0.6855) =
= (28.11,31.63)
8.8. REGRESIÓN LINEAL MÚLTIPLE

En la sección 8.3 se ha desarrollado el método de regresión lineal simple. Este título
implica tres cosas: regresión, supone que el propósito del experimento es la predicción;
lineal alude a que la ecuación de predicción tomará la forma de una línea recta; y simple
significa que intentaremos obtener una ecuación mediante la cuál pueda predecirse el
valor de una variable dependiente Y, basándonos en el conocimiento del valor tomado
por una variable independiente X. Si se utilizara más de una variable independiente para
predecir el valor de Y entonces emplearíamos el término regresión múltiple.
Por tanto, cuando se utiliza más de una variable independiente para estimar la respuesta
media, estamos ante un problema de regresión lineal múltiple. El modelo de regresión
lineal múltiple tiene la siguiente forma:
Y = β0 + β1X1 + β2X2 +… + βpXp + ε
donde las variable X1, X2, …, Xp son las p variables explicativas continuas. Obsérvese
que si p = 1, este modelo coincide con el modelo de regresión lineal simple de la
sección 8.3.
Al igual que en el modelo simple, este modelo consta de una componente sistemática,
que define la dependencia lineal de la media de Y en X1, X2, …, Xp (µY|X = β0 + β1X1 +
β2X2 +… + βpXp) y una componente aleatoria que mide el error que se comete al estimar
Y mediante X1, X2, …, Xp. El error está representado por una variable aleatoria con
distribución normal, esperanza 0 y varianza σ2.
El problema nuevamente es el de estimar los parámetros β0, β1,,β2, … βp mediante el
método de mínimos cuadrados. Deseamos hallar los valores de estos parámetros que
minimizan la suma de los cuadrados de los residuos, donde un residuo es la diferencia
entre el dato puntual observado y el valor de la respuesta predicha por la ecuación de
regresión estimada. En el caso de la regresión lineal simple, hemos podido desarrollar
ecuaciones simples para estimar los dos parámetros β0 y β1, estimando así la recta de
regresión. En regresión lineal múltiple no existen expresiones algebraicas sencillas que
puedan desarrollarse para estimar los parámetros β0, β1,,β2, … βp cuando p >1. Las
estimaciones se obtienen fácilmente mediante la utilización de un software estadístico,
como por ejemplo el SPSS. Una vez obtenidas las estimaciones, la ecuación de
regresión se utiliza para el mismo fin que en el caso de la regresión lineal simple.
Un valor R2 también aparece en los estudios de regresión lineal múltiple. Tiene el
mismo significado aquí que en el caso de regresión lineal simple. Es decir, R2 nos da el
porcentaje de variación de respuesta explicada por la asociación lineal con las variable
X1, X2, …, Xp.
Vamos a ilustrar la idea de la regresión lineal múltiple por medio de un ejemplo.

Ejemplo 8.9: Supongamos que tenemos un estudio cuyo objetivo es estudiar la
influencia de la edad y la altura de un niño en su capacidad pulmonar. Para ello, se
recogen datos relativos a 654 niños y se les realiza la prueba de funcionamiento
pulmonar.
Se propone un análisis de regresión lineal múltiple, de esta forma, podemos obtener una
ecuación que nos permita obtener el nivel de FEV esperado en un niño en función de su
edad y su altura, pues se estima que ambas variables independientes, proporcionan una
mejor predicción del FEV que cada una de ellas de forma individual.
Los siguientes gráficos muestran una imagen de la relación de la edad y la altura con el
FEV. Ambos indican que la relación lineal es aceptable, el FEV aumenta con la edad y
la altura.
6 6
5 5
4 4
3 3
2 2
1
1
FEV
FEV
0
0
40 50 60 70 80
0 10 20
ALTURA
EDAD
Por tanto, vamos a asumir que la relación del FEV con la edad y la altura puede
resumirse mediante una ecuación del tipo:
FEV = β0 + β1·EDAD + β2·ALTURA + ε
Veamos cuales son las estimaciones de los parámetros β0, β1 y β2 a partir de los datos de
la muestra. Realizamos un análisis de regresión lineal múltiple en SPSS, incluyendo las
dos variables que deseamos introducir como independientes.
Al igual que en regresión lineal simple, utilizamos el botón Estadísticos para

seleccionar las opciones Estimaciones e Intervalos de confianza de los parámetros de
regresión y la opción Ajuste del modelo.
Los resultados obtenidos se resumen en tres tablas, al igual que en el modelo de
regresión lineal simple.
En primer lugar, la tabla ANOVA, nos resume las características del modelo utilizado.
En ella aparecen los resultados del contraste general de regresión, que en este caso está
contrastando la significación de las dos variables independientes conjuntamente.
H0: β1 = β2 = 0
H1: β1 ≠ 0 ó β2 ≠ 0
ANOVAb
Suma de Media
Modelo cuadrados gl cuadrática F Sig.
1 Regresión 376,245 2 188,122 1067,956 ,000a
Residual 114,675 651 ,176
Total 490,920 653
a. Variables predictoras: (Constante), ALTURA, EDAD
b. Variable dependiente: FEV
Observamos un valor p < 0.05. Por tanto, rechazamos la hipótesis nula y afirmamos que
la importancia de la edad y la altura en la estimación del nivel medio del FEV es
estadísticamente significativa.
Pero, podría ocurrir que no fuera necesario utilizar ambas variables, sino que una de
ellas fuera suficiente para estimar el nivel medio de FEV, siendo la otra innecesaria.
Este hecho lo contrastaremos realizando un contraste de significación de ambos
parámetros individualmente.
La segunda tabla que nos ofrece el SPSS nos ofrece las estimaciones de los parámetros,
junto con sus desviaciones estándar, su significación y su intervalo de confianza.
Coeficientesa
Coeficientes
Coeficientes no estandarizad Intervalo de confianza para
estandarizados os B al 95%
Límite
Modelo B Error típ. Beta t Sig. Límite inferior superior
1 (Constante) -4,610 ,224 -20,558 ,000 -5,051 -4,170
EDAD 5,428E-02 ,009 ,185 5,961 ,000 ,036 ,072
ALTURA ,110 ,005 ,722 23,263 ,000 ,100 ,119
a. Variable dependiente: FEV
A partir de esta tabla, obtenemos la expresión de la recta de regresión.

Media (FEV) = -4.61 − 0.05428·EDAD + 0.11·ALTURA
Los intervalos de confianza para los parámetros de regresión son:
I 95%
β ALTURA = (0.100, 0.119)
I 95 %
β EDAD = (0.036, 0.072)
I 95 %
β 0 = (-5.051,-4.170)
La interpretación de β̂ 0 no tiene sentido en este caso (FEV esperado para un niño con
altura = 0 y edad = 0).
Si realizamos el contraste de hipótesis
H0: βALTURA = 0
H1: βALTURA ≠ 0
Como p = 0 < 0.05 se rechaza la hipótesis nula y podemos decir que la influencia de la
altura sobre el FEV es significativa. Es decir, un aumento de una pulgada en la altura,
produce un aumento medio de 0.11 litros en el FEV, para valores fijos de la edad
(ajustando por edad). Este aumento está entre 0. 100 y 0. 119 litros con un nivel de
confianza del 95%.
H0: βEDAD = 0
H1: βEDAD ≠ 0
edad sobre el FEV es significativa. Es decir, un aumento de un año en la edad, produce
un aumento medio de 0.0543 litros en el FEV, para valores fijos de la altura (ajustando
por altura). Este aumento está entre 0. 036 y 0. 072 litros con un nivel de confianza del
95%.
La tercera tabla nos proporciona el coeficiente de determinación, crudo y corregido, que
en este caso coinciden. R2 = 0.8752 = 0.766 y por tanto, la altura y la edad
conjuntamente explican el 76.6% de la variabilidad existente en el FEV.
Resumen del modelob
R cuadrado Error típ. de la

Modelo R R cuadrado corregida estimación
1 ,875a ,766 ,766 ,4197046
a. Variables predictoras: (Constante), ALTURA, EDAD
b. Variable dependiente: FEV
La regresión lineal múltiple es un tema muy complejo. Normalmente, cuando se realiza

un estudio de regresión múltiple, el experimentador intenta señalar todas las variables
que cree que son factores importantes para explicar la respuesta. Estas variables no son
elegidas por el estadístico, sino por el experimentador experto en la materia. A
continuación se realiza el experimento que implica tomar decisiones sobre todas las
variables explicativas y la respuesta. Una vez realizado esto, se realiza un poco de
trabajo detectivesco. El experimentador, con ayuda del estadístico, debe decidir cuales
de las variables explicativas desempeñan el mejor trabajo en explicar la respuesta.
¿Deben utilizarse todas las variables explicativas, o algún subconjunto de variables
funciona igualmente bien o aún mejor? El objetivo es hallar el mejor conjunto de
variables explicativas. Existen varios criterios utilizados para ver cuál es el mejor
conjunto. De algunos de éstos ya hemos hablado en este tema, R2 y contraste global de
regresión. Para el modelo final, es deseable tener un valor alto de R2 o lo que es lo
mismo, un valor pequeño de la suma de cuadrados residual, que hemos denotado por
SSE. Deseamos que el modelo explique un alto porcentaje de la variación observada en
la respuesta. Sin embargo, se sabe que a medida que se añaden más y más variables
explicativas al modelo, R2 siempre aumenta. ¿Significa esto que cuantas más variables
mejor? La respuesta a la pregunta es claramente no. Existen otros criterios que son
indicadores mucho mejores de la capacidad predictiva de una ecuación de regresión que

R2. Estos criterios son sensibles a la adición de variables innecesarias al modelo. Se
puede realmente dañar la capacidad predictiva de un modelo incluyendo regresores sin
importancia. Así pues, para escoger el mejor modelo, debemos considerar todos los
criterios y hacer un juicio de valor. Deseamos tomar el conjunto menor de regresores
que produce un R2 razonablemente alto, un SSE razonablemente pequeño y que tiene un
buen valor predictivo según lo medido por los demás criterios, esto se denomina criterio
de parsimonia. Existen muchos textos que tratan estas ideas con detalle. Es importante
no caer en la tentación de probar diferentes modelos a la búsqueda de alguna relación
estadísticamente significativa, pues esto nos puede llevar a encontrar modelos con muy
buenas características estadísticas pero que muestran relaciones clínicamente ridículas.
Si se desea realizar un experimento donde se va a utilizar la regresión múltiple en el
análisis de los datos, se sugiere consultar a un especialista en estadística, no solo para el
análisis de los datos, sino también en la propia fase del diseño del experimento.
8.9. MODELO LINEAL GENERAL

Hasta ahora el modelo de regresión lineal ha incluido únicamente variables continuas
como independientes. Es decir, se ha estudiado la influencia de una serie de variable
continuas, X1, X2, …, Xp en la respuesta también continua Y. Este modelo se puede
generalizar a variables independientes discretas. La técnica de análisis que incluye
variables continuas y discretas como variables explicativas en un modelo de regresión
lineal se denomina modelo lineal general o análisis de la covarianza (ANCOVA).
Las variables discretas se introducen en el modelo mediante lo que se denomina
variables indicador o “dummy”. Una variable indicador representa la pertenencia de
un individuo a una categoría de la variable discreta en cuestión. Por ejemplo,
supongamos que queremos introducir en el modelo una variable que indique gravedad
del paciente que tenemos categorizada en tres categorías: grave, moderado y leve.
Debemos elegir una de las tres categorías como categoría de referencia, supongamos
que elegimos de referencia a los pacientes leves. Las otras dos categorías irán en el
modelo representadas por dos variables indicador: I1 y I2. La variable I1 tomará el valor
uno en los pacientes graves y el valor cero en el resto. La variable I2 tomará el valor uno
en los pacientes con una gravedad moderada y cero en el resto. De esta forma, una vez
estimado el modelo lineal general, el coeficiente de I1 representa la diferencia esperada
en la respuesta entre los pacientes graves y los leves; y el coeficiente de I2 representa la
diferencia esperada en la respuesta entre los pacientes moderados y los leves; ambos,
suponiendo que el resto de variable explicativas incluidas en el modelo se mantengan
constantes.
De esta forma, el modelo lineal general viene dado por la siguiente expresión:
Y = β0 + β1X1 + β2X2 +… + βpXp + ε
donde las variable X1, X2, …, Xp son variables explicativas continuas o variables
indicador resultantes de las categorías de las variables discretas que queremos introducir
en el modelo. El error, al igual que en el modelo de regresión lineal simple y múltiple,
está representado por una variable aleatoria con distribución normal, esperanza 0 y
varianza σ2.
El procedimiento de SPSS que nos permite utilizar un modelo lineal general es
>Analizar >Modelo lineal general >Univariante. En el cuadro de diálogo debemos
seleccionar la variable dependiente, las variables independientes continuas
(covariables) y los factores independientes fijos que queremos introducir en el modelo

en las casillas creadas con este fin. En este texto no se van a tratar factores aleatorios.
Al igual que hemos hecho para el modelo de regresión lineal múltiple, vamos a ilustrar
la idea del modelo lineal general por medio de un ejemplo.
Ejemplo 8.10: Volviendo a los datos del ejemplo 8.9, supongamos que además de los
datos recogidos hasta ahora, se dispone también del sexo de los niños. Además, es
conocido el hecho de que el sexo puede tener una influencia significativa en el FEV. Se
plantea completar el estudio realizado en el ejemplo 8.9, estimando el FEV esperado en
un niño en función de su altura, edad y sexo.
Por tanto, vamos a asumir que la relación del FEV con la edad, la altura y el sexo puede
resumirse mediante una ecuación del tipo:
FEV = β0 + β1EDAD + β2ALTURA + β3 MUJER + ε
Se ha seleccionado a los hombres como categoría de referencia. La variable MUJER,
introducida en el modelo, toma el valor cero para los hombres y el valor uno para las
mujeres.
Definimos un modelo lineal general en SPSS, incluyendo las dos variables que
deseamos introducir como variables independientes continuas (covariables) y el sexo
como variable factor fijo.
En general, SPSS adoptará como categoría de referencia la última, aunque se puede
seleccionar cuál es la categoría que deseamos usar de referencia. En ningún caso es
necesario realizar una recodificación de las variables para obtener las variables
indicador que corresponden a la variable discreta, SPSS realiza esta labor
automáticamente, siempre y cuando la variable sea identificada en el modelo como
variable factor.

El botón Opciones nos permite seleccionar las opciones Estimaciones de los

parámetros.
La tabla principal de resultados es en la que aparecen las estimaciones de los
parámetros, junto con sus desviaciones estándar, su significación y su intervalo de
confianza.
A partir de esta tabla, obtenemos la expresión de la recta de regresión.
Media (FEV) = -4.287 + 0.06136·EDAD + 0.105·ALTURA – 0.161·MUJER
Los intervalos de confianza para los parámetros de regresión son:
I 95%
β ALTURA = (0.0952, 0.114)
I 95 %
β EDAD = (0.04356, 0.07917)
I 95%
β MUJER = (-0.226,-0.0961)
En este caso tampoco tiene sentido interpretar β̂ 0 , por tanto no lo consideramos.

Estimaciones de los parámetros
Variable dependiente: FEV

Intervalo de confianza al
95%.
Límite
Parámetro B Error típ. t Significación Límite inferior superior
Intersección -4,287 ,230 -18,621 ,000 -4,740 -3,835
EDAD 6,136E-02 ,009 6,766 ,000 4,356E-02 7,917E-02
ALTURA ,105 ,005 21,986 ,000 9,522E-02 ,114
[SEXO=0] -,161 ,033 -4,864 ,000 -,226 -9,61E-02
[SEXO=1] 0a , , , , ,
a. Al parámetro se le ha asignado el valor cero porque es redundante.
Podría ocurrir que no fuera necesario utilizar todas las variables para estimar el nivel
medio de FEV. Veamos cuál es el resultado de los contrastes de significación de los
parámetros.
H0: βALTURA = 0
H1: βALTURA ≠ 0
altura sobre el FEV es significativa. Es decir, un aumento de una pulgada en la altura,
produce un aumento medio de 0.105 litros en el FEV, para valores fijos de la edad y el
sexo (ajustando por edad y sexo). Este aumento está entre 0.095 y 0.114 litros con un
nivel de confianza del 95%.
H0: βEDAD = 0
H1: βEDAD ≠ 0
edad sobre el FEV es significativa. Es decir, un aumento de un año en la edad, produce

un aumento medio de 0.0614 litros en el FEV, para valores fijos de la altura y el sexo
(ajustando por altura y sexo). Este aumento está entre 0.0436 y 0.0792 litros con un
nivel de confianza del 95%.
H0: βMUJER = 0
H1: βMUJER ≠ 0
Como p = 0 < 0.05 se rechaza la hipótesis nula y podemos decir que la influencia del
sexo sobre el FEV es significativa. Es decir, el valor medio del FEV es 0.161 litros
menor en las mujeres que en los hombres, para valores fijos de la altura y la edad
(ajustando por altura y edad). Esta diferencia está entre 0.096 y 0.226 litros con un nivel
de confianza del 95%.
Por tanto vemos que las tres variables tienen una influencia significativa en el FEV de
los niños. Además, el coeficiente de determinación es R2 = 0.775 y el coeficiente de
determinación corregido R 2 = 0.774. Por tanto, la altura, la edad y el sexo
conjuntamente explican el 77% de la variabilidad existente en el FEV.
Al igual que se ha comentado en el modelo de regresión lineal múltiple, el modelo
lineal general es un método de análisis estadístico muy potente que proporciona
resultados mucho más sofisticados que los expuestos en este texto. Lo aquí expuesto
debe tomarse únicamente de referencia y ejemplo de utilización de esta técnica. Si se
desea realizar un experimento donde se van a utilizar este tipo de técnicas de análisis se
sugiere contactar con un experto en análisis de datos.

Análisis de datos categóricos Bioestadística con SPSS
Tema 9: ANÁLISIS DE DATOS CATEGÓRICOS
9.1. INTRODUCCIÓN
A menudo deseamos estudiar simultáneamente dos variables aleatorias categóricas. Para
ello se construye una tabla de doble entrada. Esta tabla contiene r filas, donde r es el
número de respuestas posibles de la primera variable, y s columnas, donde s es el
número de respuestas posibles de la segunda variable. De esta forma, una tabla de doble
entrada tiene r×s categorías o celdas. Generalmente, en la tabla se incluye la
información concerniente a las frecuencias absolutas y frecuencias relativas o
porcentajes. En los márgenes de la tabla también se incluye la distribución marginal de
cada variable.
Una tabla de este tipo nos sirve, en primer lugar, para describir la relación entre dos
variables categóricas, por medio del número o porcentaje de individuos perteneciente a
cada subgrupo creado de la combinación de las categorías de ambas variables. Vamos a
ilustrar la manera de describir e interpretar este tipo de datos mediante un ejemplo.
Ejemplo 9.1: Se realiza un estudio para determinar si existe asociación entre el grupo
sanguíneo y las úlceras duodenales. Se selecciona una muestra de 1301 pacientes con
úlcera duodenal y 6313 controles sanos y se determina el grupo sanguíneo de cada uno.
La siguiente tabla de doble entrada muestra la distribución cruzada de estas dos
variables.
Grupo sanguíneo
0 A B AB
Pacientes 698 (53.65) 472 (36.28) 102 (7.84) 29 (2.23) 1301 (17.09)
Controles 2892 (45.81) 2625 (41.58) 570 (9.03) 226 (3.58) 6313 (82.91)
3590 (47.15) 3097 (40.68) 672 (8.83) 255 (3.35) 7614
Los valores entre paréntesis son los porcentajes sobre el total en los márgenes de la
tabla. La muestra está formada por un 17% de pacientes y un 83% de controles. La
distribución global del grupo sanguíneo es de 47% del grupo 0, 41% del A, 9% del B y
3% del AB. En el interior de la tabla sin embargo, los porcentajes corresponden a cada
fila. En los pacientes, la distribución del grupo sanguíneo es de 54% del grupo 0, 36%
del A, 8% del B y 2% del AB. Mientras que en los controles, la distribución del grupo
sanguíneo es de 46% del grupo 0, 41% del A, 9% del B y 4% del AB.
Una tabla de este tipo nos proporciona una imagen descriptiva de la relación entre
ambas variables. La pregunta natural que surge a la vista de estos datos es: ¿hay
asociación entre el grupo sanguíneo y las úlceras duodenales? La respuesta a esta
pregunta sería positiva, si se viera una distribución diferente del grupo sanguíneo entre
los casos y los controles. Es decir, si viéramos que los porcentajes de ambas filas son
diferentes. La siguiente pregunta que nos hacemos es: ¿cómo de diferentes han de ser
los porcentajes para afirmar que existe asociación entre ambas variables? La respuesta a
esta pregunta vendrá dada en los apartados posteriores de este capítulo, estableciendo el
contraste de hipótesis necesario para contrastar si la asociación entre dos variables
categóricas es estadísticamente significativa.

9.2. TABLAS DE CONTINGENCIA

El término tabla de contingencia se usa para designar formalmente una tabla de doble
entrada como la que se ha visto en el apartado anterior. Una tabla de contingencia es
una tabla que consta de r×s clases o celdas que provienen de cruzar r filas y s columnas.
Cada observación del conjunto de datos cae exactamente en una celda. El análisis de
datos se basa en el examen del número de observaciones que caen dentro de cada
categoría.
Estas tablas se construyen de forma que dos características o factores de la población se
ordenan en filas y columnas, respectivamente, de forma que se cuentan las frecuencias
observadas para cada una de las celdas. Supongamos que el factor A tiene r modalidades
y el factor B tiene s modalidades, la tabla de contingencia resultante sería la siguiente.
Factor B
1 2 3 … s
1 o11 o12 o13 … o1s f1·
2 o21 o22 o23 … o2s f2·
Factor A
M M M M M M M
r or1 or2 or3 … ors fr·

z·1 z·2 z·3 … z·s n
donde,
• oij : frecuencia observada en la celda ij.
• z·1, z·2, z·3,…, z·s : Totales marginales por columnas, representan el total
acumulado en cada columna. Es decir,
z·j = o1j+ o2j + o3j +…+ orj tal que j = 1,2,…,s
• f1·, f2·, f3·,…, fr· : Totales marginales por filas, representan el total acumulado en
cada fila. Es decir,
fi·= oi1+ oi2 + oi3 +…+ ois tal que i = 1,2,…,r
• n: Tamaño de la muestra observada.
El procedimiento para obtener una tabla de contingencia en SPSS es >Analizar
>Estadísticos descriptivos > Tablas de contingencia. En el cuadro de diálogo deben
indicarse las variables que deseamos representar en las filas y las columnas
respectivamente.
El botón Casillas nos permite indicar cuales son los valores que deseamos observar en
las celdas de la tabla, por defecto únicamente aparecen las frecuencias observadas. El
botón Formato nos permite ordenar las filas en orden ascendente o descendente, según
los valores que toma la variable. El botón Estadísticos nos permite realizar contrastes de
hipótesis, lo cuál desarrollaremos en posteriores apartados de este capítulo.
Ejemplo 9.2: Continuando con los datos del ejemplo 9.1, veamos como utilizar el SPSS
para representar estos datos en una tabla.
En primer lugar debemos prestar especial atención a la forma de introducir los datos en
el ordenador cuando estos aparecen en forma de tabla de doble entrada. En el capítulo 1
se ha descrito la forma correcta de introducir los datos en SPSS, cuando se dispone de

datos desglosados por individuo. En este caso, como es muy común en datos de estas
características, los datos están agrupados en los subgrupos resultantes de cruzar las
categorías de ambas variables. En la siguiente figura se muestra la forma correcta de
introducir estos datos en SPSS.
Se crean dos variables, una representando al grupo sanguíneo y la otra representando la
presencia de enfermedad. Se crea una variable adicional, denominada PESO,
representando el número de individuos en cada grupo. Posteriormente se utiliza el
procedimiento Ponderar casos, descrito en el apartado cinco del capítulo 3, para
ponderar las observaciones mediante la variable PESO. De esta forma, el SPSS entiende
que hay 2892 individuos como el primero, 698 como el segundo y así sucesivamente.
Una vez que tenemos las datos correctamente introducidos y ponderados, procedemos a
realizar la tabla. Vemos en el cuadro de diálogo, que también se pueden solicitar
gráficos descriptivos de estos datos, activando la opción Mostrar los gráficos de barras
agrupadas.

En este ejemplo solicitamos todos los porcentajes, a título ilustrativo de interpretación.

En la práctica, sólo se solicitan aquellos porcentajes que tienen sentido desde un punto
de vista clínico. Cuáles de los porcentajes son interpretables viene predeterminado por
la forma en que se ha diseñado el estudio.
El resultado ofrecido por SPSS es la siguiente tabla:
Tabla de contingencia Presencia de enfermedad * Grupo sanguineo
Grupo sanguineo
0 A B AB Total
Presencia de Caso Recuento 698 472 102 29 1301
enfermedad % de Presencia de
53,7% 36,3% 7,8% 2,2% 100,0%
enfermedad
% de Grupo sanguineo 19,4% 15,2% 15,2% 11,4% 17,1%
% del total 9,2% 6,2% 1,3% ,4% 17,1%
Control Recuento 2892 2625 570 226 6313
% de Presencia de
45,8% 41,6% 9,0% 3,6% 100,0%
enfermedad
% del total 38,0% 34,5% 7,5% 3,0% 82,9%
Total Recuento 3590 3097 672 255 7614
% de Presencia de
47,1% 40,7% 8,8% 3,3% 100,0%
enfermedad
% del total 47,1% 40,7% 8,8% 3,3% 100,0%
En esta tabla observamos los mismos datos que en la tabla que se ha ofrecido en el
ejemplo 9.1, pero además aparecen una serie de porcentajes adicionales. En cada celda,
observamos los porcentajes totales, por filas y por columnas. Por ejemplo, en la primera
celda, observamos que el 53.7% de los pacientes pertenece al grupo sanguíneo 0, el
19.4% de los individuos del grupo sanguíneo 0 están enfermos; y el 9.2% de los
individuos están enfermos y tienen grupo sanguíneo 0.
En los laterales de la tabla, aparece el mismo porcentaje repetido, que indica el % de
individuos sobre el total y el 100% que indica la suma de los correspondientes
porcentajes por filas o columnas, respectivamente.
9.3. PRUEBAS DE HOMOGENEIDAD E INDEPENDENCIA

La hipótesis nula a contrastar mediante una tabla de contingencia es la de no asociación
o independencia entre las dos variables de clasificación. La alternativa es que hay
asociación. La forma exacta de la hipótesis nula depende del diseño del experimento.
Estudiamos dos propuestas experimentales diferentes que proporcionan las tablas de
contingencia:
• Todos los totales marginales pueden variar sin restricciones (estudios de cohorte).
En este caso la prueba se denomina prueba de independencia.

• Un grupo de totales marginales (filas o columnas) está establecido por el

investigador, el otro puede variar sin restricciones (estudios caso-control). En este
caso la prueba se denomina prueba de homogeneidad.
9.3.1. PRUEBA DE INDEPENDENCIA
Supongamos que los totales marginales son aleatorios, entonces la forma del contraste
de hipótesis es la siguiente:
H0: Los factores A y B son independientes.
H1: Los factores A y B son dependientes.
El estadístico pivote que usaremos para realizar el contraste de hipótesis es
s r (oij − eij ) 2 s r oij
2
χ p2 = ∑∑ = ∑∑ −n
j =1i =1 eij j =1i =1 eij
donde oij y eij representan el valor observado y esperado en la celda ij respectivamente.

f i. ⋅ z . j
Los valores esperados se calculan mediante la siguiente fórmula: eij = .
n
Intuitivamente, este estadístico representa un promedio de las diferencias entre las
frecuencias observadas y las frecuencias esperadas bajo el supuesto de que H0 es cierto.
Si H0 es verdad, ese estadístico sigue una distribución ji-cuadrado con (r − 1)·(s − 1)
grados de libertad. Por tanto, el p-valor asociado al contraste de hipótesis es p =
P( χ(2r −1)⋅( s−1) > χ p2 ).
El valor p se interpreta de la misma forma que en los contrastes de hipótesis realizados
anteriormente. Valores pequeños de p (grandes del estadístico pivote, por tanto
diferencias grandes entre las frecuencias observadas y esperadas bajo H0) nos llevaran a
rechazar la hipótesis de independencia. Valores grandes de p (pequeños del estadístico
pivote, por tanto diferencias pequeñas entre las frecuencias observadas y esperadas bajo
H0) nos llevará a no rechazar la hipótesis de independencia.
La metodología desarrollada es adecuada para frecuencias esperadas suficientemente
grandes. Es decir, eij > 5 para todas las celdas. Si esto no se cumple, habrá que agrupar
categorías hasta conseguir que se cumpla o utilizar otro tipo de contraste que
desarrollaremos a continuación en este mismo capítulo.

El procedimiento de SPSS que nos permite realizar una prueba de independencia se

encuentra en >Analizar >Estadísticos descriptivos >Tablas de contingencia. El botón
Casillas nos permite obtener las frecuencias esperadas. El botón Estadísticos nos
pregunta qué estadísticos deseamos calcular, en este caso debemos seleccionar Chi-
cuadrado.
Ejemplo 9.3: Se realiza un estudio para determinar si hay alguna asociación aparente
entre el peso de un muchacho y un éxito precoz en la escuela, a juicio de un psicólogo
escolar. Se selecciona una muestra aleatoria consistente en 500 estudiantes y se les
clasifica de acuerdo con los dos criterios en la siguiente tabla.
Sobrepeso
Éxito precoz Si No
Si 162 263 425
No 38 37 75
200 300 500
El contraste de hipótesis se plantea de la siguiente manera
H0: El peso y el éxito precoz son independientes.
H1: El peso y el éxito precoz son dependientes.
Se calculan las frecuencias esperadas. La siguiente tabla muestra las frecuencias
observadas y las esperadas (entre paréntesis) en cada celda.
425 × 200 425 × 300 75 × 200
e11 = = 170 e12 = = 255 e21 = = 30
500 500 500
75 × 300
e22 = = 45
500
Sobrepeso
Éxito precoz Si No
Si 162 (170) 263 (255) 425
No 38 (30) 37 (45) 75
200 300 500
Todas las frecuencias esperadas cumplen la condición de ser mayores que 5. El valor
observado del estadístico es el siguiente
2 2 (o ij − eij ) 2 2 2 oij2  162 2 263 2 38 2 37 2 
χ = ∑∑
2
= ∑∑ − n =  + + +  − 500 = 4.18
45 
p
j =1 i =1 eij j =1 i =1 eij  170 255 30
En esta tabla, r = s = 2. Por tanto, el número de grados de libertad es (r − 1)·(s − 1) = 1.

El valor p del contraste es: p = P( χ12 ≥ 4.18)

Utilizando las tablas de la distribución ji-cuadrado observamos que 0.025 < p < 0.05. Si
elegimos un nivel de significación de α = 0.05 para realizar el contraste, rechazamos la
hipótesis de independencia y concluimos que la obesidad y la precocidad en la escuela
no son independientes.
Pruebas de chi-cuadrado
Sig. asintótica Sig. exacta Sig. exacta

Valor gl (bilateral) (bilateral) (unilateral)
Chi-cuadrado de Pearson 4,183b 1 ,041
Corrección por
a 3,676 1 ,055
continuidad
Razón de verosimilitud 4,111 1 ,043
Estadístico exacto de
,055 ,028
Fisher
Asociación lineal por
4,175 1 ,041
lineal
N de casos válidos 500
a. Calculado sólo para una tabla de 2x2.
b. 0 casillas (,0%) tienen una frecuencia esperada inferior a 5. La frecuencia mínima esperada
es 30,00.
Vemos que el valor del estadístico y el p-valor coinciden con los calculados
anteriormente.
9.3.2. PRUEBA DE HOMOGENEIDAD
Supongamos ahora que los totales marginales por filas están fijados por el investigador,
mientras que por columnas son aleatorios. Esta situación aparece cuando hay más de
una población a estudio. Estamos interesados en una característica particular y
queremos responder a la pregunta ¿es igual la proporción de objetos con la misma
característica en todas las poblaciones? Si no hay asociación entre la característica y la
población a la cual pertenece un determinado individuo, entonces la proporción con la
característica debería ser la misma en cada caso. Si hay asociación las proporciones
deberían ser diferentes.
La forma del contraste de hipótesis es la siguiente:
H0: La proporción con la característica es la misma en cada población.
H1: La proporción con la característica varía por población.
Estamos realizando un contraste para ver si las poblaciones de las que se extrajeron
muestras son iguales en el sentido de que la proporción de objetos con la característica
es la misma en cada población.
La realización analítica del contraste es exactamente igual a la prueba de independencia.
La única diferencia entre ambas pruebas reside en el diseño del experimento y en la
formulación de las hipótesis nula y alternativa.
Ejemplo 9.4: Analizamos ahora los datos del ejemplo 9.1. Se realiza un estudio para
determinar si existe asociación entre el grupo sanguíneo y las úlceras duodenales. Se
selecciona una muestra de 1301 pacientes y 6313 controles y se determina el grupo
sanguíneo de cada uno de ellos. El contraste a realizar es el siguiente:
H0: No hay diferencias entre el grupo sanguíneo de los controles y de los enfermos.
H1: Hay diferencias entre el grupo sanguíneo de los controles y de los enfermos.

Se calculan las frecuencias esperadas y se colocan en la tabla entre paréntesis

Grupo sanguíneo
O A B AB
Pacientes 698 472 102 29 1301
(613.42) (529.18) (114.82) (43.57)
Controles 2892 2625 570 226 6313
(2976.58) (2567.82) (557.18) (211.43)
3590 3097 672 255 7614
3590 × 1301 3097 × 1301
e11 = = 613.42 e12 = = 52918.
7614 7614
672 × 1301 255 × 1301
e13 = = 114.82 e14 = = 4357
.
7614 7614
3590 × 6313 3097 × 6313
e21 = = 297658
. e22 = = 2567.82
7614 7614
672 × 6313 255 × 6313
e23 = = 557.18 e24 = = 21143
.
7614 7614
Todas las frecuencias esperadas son mayores que 5. El valor observado del estadístico
pivote es
2 2 (oij − eij ) 2 s r oij2
χ = ∑∑
2
p = ∑∑ −n =
j =1i =1 eij j =1i =1 eij
 698 2 472 2 102 2 29 2 2892 2 2625 2 570 2 226 2 
=  + + + + + + +  - 7614
 613.42 529.18 114.82 43.57 2976.58 2567.82 557.18 211.43 
= 29.12
El número de grados de libertad de la tabla es (r − 1)·(s − 1) = (2 − 1)·(4 − 1) = 3.
Por tanto el valor p es: p = P( χ 32 ≥ 29.12)
Utilizando las tablas de la distribución ji-cuadrado observamos que p < 0.01. Por tanto,
se rechaza la hipótesis de no asociación entre el grupo sanguíneo y la presencia de
úlceras duodenales. Es decir, hay diferencias en la distribución de grupos sanguíneos
entre pacientes y controles.
Sig. asintótica
Valor gl (bilateral)
Chi-cuadrado de Pearson 29,122a 3 ,000
a. 0 casillas (,0%) tienen una frecuencia esperada inferior a 5.
La frecuencia mínima esperada es 43,57.
Vemos que el p-valor ofrecido por SPSS es < 0.0001 (motivo por el cual aparece como
0.000)
9.3.3. PRUEBA EXACTA DE FISHER
Hemos mencionado anteriormente que para que las pruebas de independencia u
homogeneidad puedan realizarse utilizando el estadístico ji-cuadrado, las muestras han

de ser grandes. El umbral se ha puesto en que todas las frecuencias esperadas deben ser
mayores que 5. Esta condición es muy estricta, se puede ser menos severo y exigir que
todas las frecuencias esperadas sean mayores que 1 y no más del 20% sean menores que
5. (J. S. Milton. Estadística para Biología y Ciencias de la Salud. Interamericana-
McGraw-Hill, 1994). En el caso particular de una tabla 2×2 estas cifras orientativas se
alcanzan sólo cuando ninguna frecuencia esperada es menor que 5. Si esto no se
cumple, existe una prueba llamada prueba exacta de Fisher para realizar el contraste
de independencia u homogeneidad de forma exacta.
La prueba exacta de Fisher se basa en la distribución hipergeométrica y consiste en
calcular la probabilidad de obtener una tabla tan rara o más rara que la obtenida. Para
ello se construyen todas las tablas con frecuencias observadas menores que la menor
frecuencia observada y se calcula la probabilidad de obtener cada una de ellas. La suma
de todas estas probabilidades será la probabilidad de obtener una tabla tan rara o más
rara que la observada y es el p-valor del contraste. El proceso es analíticamente
complejo, aunque en la actualidad este cálculo se realiza de forma automática en la
mayoría de los paquetes estadísticos cuando se detectan frecuencias esperadas bajas. El
SPSS lo realiza únicamente para tablas 2×2.
Ejemplo 9.5: Se realiza un estudio sobre los pacientes con una edad comprendida entre
50 y 54 años que han fallecido a lo largo del último mes. Los investigadores han
obtenido resultados para pacientes que han fallecido debido a una enfermedad
cardiovascular y pacientes que han fallecido por otras causas. De las 35 personas que
han fallecido debido a una enfermedad cardiovascular 5 seguían una dieta baja en sal.
De las 25 que han fallecido por otras causas 2 llevaban una dieta baja en sal. Se trata de
estudiar la posible dependencia entre el tipo de dieta y el fallecimiento por enfermedad
cardiovascular.
El contraste que debemos plantear sería el siguiente:
H0: No hay relación entre el tipo de dieta y la causa de fallecimiento.
H1: Hay relación entre el tipo de dieta y la causa de fallecimiento.
Si analizamos estos datos usando el SPSS obtenemos la siguiente tabla de resultados.
Vemos que hay frecuencias esperadas inferiores a 5, por ejemplo e21 =2.9. Es decir, no
podemos usar la prueba ji-cuadrado para el contraste. Nótese que el SPSS avisa de la
existencia de estas frecuencias inferiores a 5.
El resultado en el cual nos debemos fijar para realizar el contraste es el del test exacto
de Fisher con un valor de p = 0.688. Por tanto, no podemos rechazar la hipótesis nula y
no existe evidencia suficiente para suponer que el tipo de dieta influye en el riesgo de
muerte por enfermedad cardiovascular.
Tabla de contingencia Enfermedad * DIETA
DIETA
Baja en sal Alta en sal Total
Enfermedad Enfermedad Recuento 5 30 35
Cardiovascular Frecuencia esperada 4,1 30,9 35,0
Otras enfermedades Recuento 2 23 25
Frecuencia esperada 2,9 22,1 25,0
Total Recuento 7 53 60
Frecuencia esperada 7,0 53,0 60,0

Sig. asint. Sig. exacta Sig. exacta

Chi-cuadrado de b
,559 1 ,455
Pearson
Corrección de
a ,116 1 ,734
continuidad
Razón de verosimilitud ,581 1 ,446
,688 ,375
Fisher
,550 1 ,458
lineal
b. 2 casillas (50,0%) tienen una frecuencia esperada inferior a 5. La frecuencia mínima
esperada es 2,92.
9.3.4. OTROS ESTADÍSTICOS

Además de los que hemos mencionado en estas notas, el SPSS calcula otros estadísticos
de asociación en tablas de contingencia. Vamos a describir brevemente estos
estadísticos que se calculan en SPSS seleccionándolos en las opciones que aparecen
pulsando el botón Estadísticos del cuadro de diálogo principal de la construcción de la
tabla. En esta sección vamos a detallar los estadísticos correspondientes a datos de tipo
nominal. En la sección 9.5 detallaremos los estadísticos correspondientes a datos de tipo
ordinal.
El coeficiente Phi es una medida del grado de asociación entre dos variables
dicotómicas. Está basado en el estadístico Ji-cuadrado. Toma valores entre cero y uno.
Valores próximos a cero indican no asociación entre las variables y valores próximos a
uno indican una asociación fuerte.
El coeficiente de contingencia es una extensión del coeficiente Phi al caso de que al
menos una de las dos variables presente más de dos categorías. Toma valores entre cero
y Cmax donde, si r y s son el número de categorías de cada una de las dos variables:
min(r − 1, c − 1)
C max =
1 + min(r − 1, c − 1)

Valores próximos a cero indican no asociación, y valores próximos a Cmax (será siempre
inferior a 1), asociación fuerte.
El estadístico V de Cramer es otra extensión del coeficiente Phi. Toma valores entre
cero y uno. Tiende a subestimar el grado de asociación entre las variables. Valores de V
próximos a cero indican no asociación, y valores próximos a uno indican una asociación
fuerte.
Los estadísticos Lambda, Tau de Kruskal y Goodman y el coeficiente de
incertidumbre son medidas de asociación que reflejan la reducción proporcional en el
error cuando se utilizan los valores de la variable independiente para pronosticar los
valores de la variable dependiente. Todos ellos toman valores entre cero y uno. Un valor
igual a uno indica que la variable independiente pronostica perfectamente la variable
dependiente. Un valor igual a cero indica que la variable independiente no ayuda en
absoluto a pronosticar la variable dependiente. La diferencia entre el estadístico Lambda
y el de Kruskal y Goodman es que el primero utiliza la categoría modal para los
pronósticos, mientras que el segundo utiliza las proporciones marginales. Por ejemplo,
un valor de 0.83 indica que el conocimiento de una variable reduce en un 83% el error
al pronosticar los valores de la otra variable. El SPSS calcula versiones simétricas y
asimétricas tanto del estadístico lambda como del coeficiente de incertidumbre.
El coeficiente Eta es una medida apropiada en el caso en que se analizan los valores de
una variable cuantitativa Y en los distintos grupos o subpoblaciones establecidos por los
valores de otra variable X cualitativa. Compara la variabilidad de la variable Y
explicada por las diferencias entre grupos con la variabilidad total de la muestra. Toma
valores entre cero y uno. Valores próximos a cero indican que el comportamiento de Y
es independiente en los grupos. Valores próximos a uno indican mucha dependencia. La
variable categórica debe ser codificada numéricamente.
Para más información sobre cómo calcular y cuando utilizar estos estadísticos se
recomienda consultar la ayuda específica del cuadro de dialogo correspondiente o el
manual de SPSS. Asimismo, se recomienda utilizar un texto de referencia para
interpretar correctamente los valores de estos estadísticos (Fleiss, 1981).
9.4. TABLAS 2 × 2
En ocasiones los factores a estudio constan ambos de dos categorías, de forma que la
tabla de contingencia resultante es lo que se denomina una tabla 2×2. Estas tablas, aún
siendo un caso particular da tablas de contingencia, tienen unas peculiaridades que
vamos a estudiar con más detalle.
9.4.1. CORRECCIÓN DE YATES
En los contrastes de independencia u homogeneidad se pretende aproximar una
distribución discreta (conteo de frecuencias) por medio de la distribución ji-cuadrado. El
error que se comete es despreciable en la mayoría de los casos. Sin embargo, en el caso
particular de una tabla 2×2, el número de grados de libertad de la tabla y por tanto del
estadístico pivote anteriormente descrito es 1, y se comete un error considerable al
s r (o ij − e ij )
2
suponer que el estadístico χ = ∑ ∑

2
sigue una distribución ji-cuadrado con
j =1 i =1 eij
1 grado de libertad, siendo necesario corregir ese error.
Con la finalidad de corregir este error Yates propuso un nuevo estadístico, que no es
sino el anterior con una pequeña corrección. Este estadístico se conoce con el nombre

de corrección de Yates y lo denotaremos por χ Y2 para diferenciarlo del estadístico ji-

cuadrado tradicional.
2
 1
 |o −e |− 
ij ij
χ Y2 = ∑ ∑ 
2 2 2
j =1 i =1 eij
Bajo el supuesto de que H0 es verdad, su distribución es aproximadamente ji-cuadrado
con 1 grado de libertad. La aproximación de este nuevo estadístico pivote a la
distribución ji-cuadrado con un grado de libertad es mejor.
La utilización de esta corrección es necesaria en tablas 2×2 siempre y cuando se cumpla
la siguiente condición: o11o22 − o12 o21 > n 2 .
La mayoría de paquetes estadísticos, incluido el SPSS, calculan ambos estadísticos para
las tablas 2×2. Es labor del investigador decidir que resultado debe tener en cuenta en
cada caso.
Ejemplo 9.6: Volviendo a los datos presentados en el ejemplo 9.3, debemos comprobar
si esta tabla 2×2 verifica la condición necesaria para usar la corrección de Yates.
o11o 22 − o12 o 21 = |162·37 – 263·38| = 4000 > n/2 = 250
Por tanto, vemos que en el análisis de los datos de este ejemplo hubiera sido necesario
utilizar la corrección. Vamos por tanto a retomar este análisis y ver cuál sería el
estadístico adecuado. Los resultados ofrecidos por SPSS estaban incluidos en esta tabla.
Sig. asintótica Sig. exacta Sig. exacta

Chi-cuadrado de Pearson 4,183b 1 ,041
Corrección por
a 3,676 1 ,055
continuidad
,055 ,028
Fisher
4,175 1 ,041
lineal
b. 0 casillas (,0%) tienen una frecuencia esperada inferior a 5. La frecuencia mínima esperada
es 30,00.
Debemos fijarnos en los resultados que aparecen bajo el título de Corrección por
continuidad. Vemos que el valor del estadístico es de 3.676 y el valor p asociado es p =
0.055 > 0.05. Por tanto, no rechazamos la hipótesis nula, concluyendo que no existe una
relación estadísticamente significativa entre la obesidad y la precocidad en la escuela.
Obsérvese que el resultado es contrario al obtenido en el ejemplo 9.3, es decir, una
análisis incorrecto de los datos puede llevarnos a sacar conclusiones erróneas. En este
caso el análisis correcto sería éste último.

9.4.2. MEDIDAS DE ASOCIACIÓN EN TABLAS 2×2

Las tablas 2×2 se usan a menudo en estudios epidemiológicos con objeto de medir la
fuerza de la asociación entre una enfermedad y un factor de riesgo. Veamos diferentes
formas de medir esta asociación en función del diseño del estudio.
En un estudio prospectivo, los participantes se seleccionan sin conocimiento previo
alguno sobre la exposición al factor de riesgo y la presencia o ausencia de la
enfermedad. Es decir, la muestra seleccionada se considera representativa de la
población de la que ha sido extraída según ambos factores. Una vez excluidos los casos
prevalentes al inicio del estudio, la población se sigue a lo largo del tiempo
contabilizando el número de casos nuevos durante ese periodo de tiempo. La siguiente
tabla resume la información obtenida del estudio en el periodo de tiempo considerado:
Incidencia de la enfermedad
Factor de exposición + − Total
Presente a b a+b
Ausente c d c+d
Total a+c b+d n
El riesgo de desarrollar la enfermedad entre aquellos expuestos al factor de riesgo se
estima mediante a / (a + b). De forma similar, el riesgo de desarrollar la enfermedad
entre aquellos no expuestos al factor de riesgo se estima mediante c / (c + d).
De esta forma el cociente o razón entre ambos riesgos nos ofrece una estimación del
riesgo relativo (RR) de aquellos expuestos al factor de riesgo frente a los no expuestos.
a ( a + b)
RR =
c (c + d )
Ejemplo 9.7: Supongamos que se realiza un estudio para estudiar la relación entre el
consumo de tabaco y el riesgo de apoplegía (AP) en hombres. Se selecciona una
muestra aleatoria de 7872 hombres a los que se realiza un seguimiento durante 12 años,
recogiendo el consumo de tabaco y si han padecido alguna apoplegía en este periodo de
tiempo. Los datos obtenidos se muestran en la siguiente tabla:
AP
Consumo de tabaco + − Total
Fumador 171 3264 3435
No fumador 117 4320 4437
Total 288 7584 7872
El riesgo relativo de sufrir una apoplegía durante los 12 años siguientes de un fumador
frente a un no fumador es:
171 / 3435
RR = = 1.89
117 / 4437
Es decir, un fumador tiene una predisposición de sufrir una apoplegía durante un
periodo de 12 años de casi dos veces más que un no fumador.
En un estudio retrospectivo, también denominado caso-control, el objetivo es comparar
casos y controles con respecto a la presencia de un factor de riesgo. En este tipo de
estudios el número de casos y controles, y en particular el número de controles por caso,
es fijado por el investigador al inicio del estudio. Posteriormente, se realiza una

búsqueda retrospectiva para obtener información relativa a la exposición al factor de

riesgo tanto de casos como de controles. Un estudio de este tipo no sirve para estimar
casos incidentes de la enfermedad, puesto que por la forma que han sido seleccionados,
los casos son prevalentes. La siguiente tabla muestra la información genérica obtenida
en un estudio de este tipo:
Factor de exposición Casos Controles Total

Presente a b a+b
Ausente c d c+d
Total a+c b+d n
En estos estudios, no se puede estimar el riesgo de desarrollar la enfermedad en
expuestos (a / (a + b))y en no expuestos (c / (c + d)), pues como hemos dicho estos
cocientes reflejan cantidades prefijadas por el investigador.
Sin embargo, podemos utilizar el cociente a / c para estimar como se dividen los casos
entre expuestos y no expuestos al factor de riesgo y análogamente b / d para los
controles. El cociente entre ambos es lo que se conoce con el nombre de odds ratio
(OR).
a c ad
OR = =
b d bc
Este estadístico tiene la cualidad de ser un buen estimador del riesgo relativo en
enfermedades raras. Cuando una enfermedad es rara, se espera que el número de
enfermos sea bajo, tanto entre expuestos como entre no expuestos al factor de riesgo.
Por tanto,
a (a + b) a b ad
RR = ≈ = = OR
c (c + d ) c d bc
Sin embargo, en enfermedades con una incidencia alta, nunca debe utilizarse el odds
ratio como estimador del riesgo relativo.
Ambos estadísticos, el riesgo relativo y el odds ratio se usan para medir la fuerza de la
asociación entre una enfermedad y un factor de riesgo. Ambos toman valores entre cero
e infinito, con la misma interpretación general. Valores mayores que uno indican que el
riesgo de padecer la enfermedad es mayor bajo exposición al factor de riesgo. El valor
uno indica que no hay asociación entre la enfermedad y el factor de riesgo. Valores
menores que uno, indican una asociación negativa, mostrando al factor de riesgo como
protector frente a la enfermedad.
Un siguiente paso sería estudiar la significación estadística de la asociación entre un
factor de riesgo y una enfermedad estimada mediante el odds ratio. Para ello, debemos
realizar inferencia sobre el verdadero odds ratio, utilizando como estimación el obtenido
∧
en la muestra, el cual denotaremos por OR .
El método más comúnmente utilizado para calcular un intervalo de confianza para el
OR es el propuesto por Wolf en 1955. Este método consiste en calcular el logaritmo
∧
neperiano del estimador del OR, ln( OR ) y estimar su desviación estándar por:
∧ 1 1 1 1
DE(ln( OR ))= + + +
a b c d

De forma que el intervalo de confianza del 95% para el ln(OR) viene dado por:
∧ 1 1 1 1
ln( OR ) ± 1.96 + + +
a b c d
Una vez obtenidos los límites de confianza para el ln(OR), podremos obtener los
correspondientes límites de confianza del OR calculando la exponencial.
Si se desea variar el nivel de confianza, sustituyendo 1.96 por el valor crítico zα/2 en la
expresión anterior obtendremos el intervalo de confianza con un nivel (1 − α)100%.
El contraste de hipótesis para comprobar la significación estadística de la asociación
entre la enfermedad y el factor de riesgo se plantea de la siguiente manera:
H0: OR = 1
H1: OR ≠ 1
Nuevamente, se utiliza el método de Wolf y se calcula el ln(OR). El estadístico pivote
utilizado para realizar el contraste es
∧
ln(OR)
Zp =
1 1 1 1
+ + +
a b c d
que bajo el supuesto de no asociación (H0 cierta) sigue una distribución
aproximadamente normal. Por tanto, el valor p viene dado por p = 2·P(Z > | Zp |)
El botón Estadísticos del cuadro de diálogo principal de la construcción de la tabla nos
pregunta qué estadísticos deseamos calcular. Para estimar el odds ratio y su intervalo de
confianza debemos seleccionar Riesgo.
Ejemplo 9.8: Supongamos que queremos estudiar la relación entre tener cataratas y ser
diabético. Se realiza un estudio caso-control, seleccionando una muestra de 607
pacientes con cataratas y una muestra de 2011 controles. Estos individuos se clasifican,
según si padecen diabetes o no en la siguiente tabla:

Factor de exposición: Casos:

Diabetes cataratas Controles Total
Si 55 84 139
No 552 1927 2479
Total 607 2011 2618
En primer lugar, realizamos el análisis de datos sin ayuda del ordenador.
∧ 55·1927 ∧
OR = =2.29 ⇒ ln( OR ) = 0.8286
84·552
∧ 1 1 1 1
DE(ln( OR ))= + + + = 0.18
55 1927 84 552
∧ ∧ ∧ ∧
 
0.95
I ln( OR ) =  ln(OR ) − 1 . 96 ⋅ DE (ln(OR )), ln(OR ) + 1 . 96 ⋅ DE (ln(OR ))  =
 
= (0.8286 – 1.96·0.18, 0.8286 + 1.96·0.18) = (0.4758, 1.1814)
0.95
I OR = (e0.4758, e1.1814) = (1.6, 3.3)
La probabilidad de padecer cataratas aumenta 2.3 veces ante la presencia de diabetes,
estando este aumento con una confianza del 95% entre 1.6 y 3.3. Además, este intervalo
no contiene al valor 1, por tanto, podemos decir que la diabetes aumenta
significativamente el riesgo de padecer cataratas.
Si realizamos el contraste de hipótesis para comprobar la significación estadística de la
asociación entre la diabetes y las cataratas:
H0: OR = 1
H1: OR ≠ 1
∧
ln(OR) 0.8286
Zp = = = 4.6 ⇒ p = 2·P(Z > | Zp |) = 2·P(Z > 4.6) <
1 1 1 1 0.18
+ + +
a b c d
0.001
Por tanto, existe una relación estadísticamente significativa entre tener cataratas y ser
diabético (p < 0.001).
Ahora, realizamos el análisis por medio del SPSS y obtenemos la siguiente tabla. En
esta tabla vemos el odds ratio de desarrollar cataratas en individuos con diabetes frente a
individuos sanos y el intervalo de confianza del OR.
Estimación de riesgo
Intervalo de confianza
al 95%
Valor Inferior Superior
Razón de las ventajas
2,286 1,606 3,253
para DIABETES (0 / 1)
Para la cohorte
1,286 1,123 1,474
CATARATA = 0
Para la cohorte
,563 ,452 ,700
CATARATA = 1

Observamos que todos los datos ofrecidos por SPSS coinciden con los calculados
manualmente, la dificultad reside básicamente en saber localizar e interpretar los datos
que deseamos en las tablas de resultados ofrecidas por el programa.
9.4.3. MÉTODOS DE AJUSTE EN UNA TABLA 2×2
Cuando se dispone de información sobre tres o más variables categóricas, proponemos
un método de ajuste que ilustramos por medio de un ejemplo.
Ejemplo 9.9: La siguiente tabla muestra unos datos sobre edad, tensión arterial sistólica
(TAS) y prevalencia de infarto de miocardio (IM) en una muestra de pacientes.
IM
Si No
Edad ≥ 60 15 188 ∧
41 1767 OR = 3.44
< 60
TAS ≥ 140 29 711 ∧
27 1244 OR = 1.88
< 140
Total 56 1955
En esta tabla observamos que el odds ratio de padecer un IM comparando los expuestos
al factor de riesgo con los no expuestos es de 3.44 por edad (≥ 60 vs. < 60) y 1.88 por
TAS (≥ 140 vs. < 140).
Además, si observamos la distribución de la muestra por edad y TAS vemos en la
siguiente tabla que el odds ratio de tener TAS alta comparando mayores de 60 años con
menores es de 3.04.
Edad
≥ 60 < 60
TAS ≥ 140 124 616 ∧
79 1192 OR = 3.04
< 140
Total 203 1808
Si el objetivo del estudio es estudiar la relación entre la TAS y la prevalencia del IM, la
edad es un factor de confusión, pues está relacionada con ambas: enfermedad (IM) y
factor de riesgo que se desea evaluar (TAS). Es decir, el odds ratio de 1.88 relacionando
TAS y IM no solo refleja la asociación entre TAS e IM, sino también la relación entre
edad e IM.
Una manera obvia de eliminar el efecto de la edad en la relación entre TAS e IM es
realizar un análisis de los datos estratificados por edad, como se indica en la siguiente
tabla.
IM
Si No Total
Edad ≥ 60 TAS ≥ 140 9 115 124 ∧
6 73 79 OR = 0.95
TAS < 140
Total 15 188 203
Edad < 60 TAS ≥ 140 20 596 616 ∧
21 1171 1192 OR = 1.87

TAS < 140
Total 41 1767 1808
Esta tabla muestra una posible relación entre variables que no se ha discutido
previamente. ¿Cómo podemos interpretar un odds ratio relacionando TAS con riesgo de
IM, si éste varía por edad? Naturalmente, el odds ratio global puede interpretarse como
una media ponderada de los odds ratio por estratos de edad. Sin embargo, calcular un

“odds ratio medio” no será razonable si la dirección de la asociación observada entre

enfermedad y factor de riesgo varía por estratos de edad. Si la asociación entre TAS y
riesgo de IM difiere por grupos de edad, diremos que existe interacción entre TAS y
edad con relación al riesgo de IM.
Resumiendo la información expuesta, la decisión sobre calcular o no un odds ratio
global relacionando la TAS con el riesgo de IM vendrá determinada por el hecho de que
la edad sea un factor de confusión en esta relación o de que exista interacción entre TAS
y edad con relación al riesgo de IM.
• Eliminar la confusión entre edad y TAS con respecto al riesgo de IM nos llevará a
estimar de forma más precisa la asociación global entre TAS y riesgo de IM.
• Si hay interacción entre edad y TAS, la estimación global de la asociación entre
TAS y riesgo de IM no es aplicable.
Esta reflexión nos lleva a la necesidad de establecer un contraste de hipótesis para
estudiar la significación de la interacción. Abordaremos esta situación más adelante,
cuando interpretemos la salida ofrecida por SPSS.
Supongamos que estamos en el primer supuesto, donde una tercera variable actúa de
factor de confusión en la relación existente entre la enfermedad y el factor de riesgo.
Mantel y Haenszel propusieron en 1959 un método de ajuste que combina los odds ratio
obtenidos en cada uno de los estratos en un estimador global del odds ratio de la
relación entre enfermedad y factor de riesgo, eliminando el efecto del factor de
confusión. Este estimador global viene dado por la expresión:
∧ ∑ a ·di i / ni
OR MH = i
∑ b ·c
i
i i / ni
donde el subíndice i indica la sub-tabla a la que nos referimos.

Por ejemplo en los datos del ejemplo 9.9 tendremos el siguiente estimador global del
odds ratio:
∧ 9·73 / 203 + 20·1171 / 1808
OR MH = = 1.57
115·6 / 203 + 596·21 / 1808
Vemos que el odds ratio que relaciona una TAS alta con riesgo de IM, una vez
eliminado el efecto de la edad es de 1.57; ligeramente inferior al odds ratio crudo de
1.88 que obteníamos antes de eliminar el efecto de la edad.
Una vez calculado un estimador global del odds ratio de la relación entre enfermedad y
factor de riesgo, eliminando el efecto del factor de confusión, es conveniente realizar un
contraste de hipótesis para comprobar la significación de este estimador. Mantel y
Haenszel proponen también un contraste de significación de la forma:
H0: ORMH = 1
H1: ORMH ≠ 1
basado en la distribución normal. Para más detalles sobre este contraste de hipótesis se
sugiere consultar Fleiss, 1981.
Recordamos que el procedimiento de SPSS que nos permite analizar tablas de
contingencia se encuentra en >Analizar >Estadísticos descriptivos >Tablas de
contingencia. En el cuadro de diálogo principal de este procedimiento indicamos las

variable que se ordenan en filas y columnas, respectivamente. La tercera variable que

deseamos introducir en el análisis como factor de confusión, en este caso la edad, debe
introducirse como una capa (estrato).
La opción Estadísticos de Cochran y de Mantel-Haenszel que aparece presionando el

botón Estadísticos del cuadro de diálogo principal nos permite obtener la estimación del
odds ratio cuando queremos ajustar los resultados por una tercera variable y realizar el
contraste de hipótesis de significación del odds ratio. Si seleccionamos también la
opción Riesgo, obtendremos también las estimaciones del odds ratio en cada estrato.
Los resultados ofrecidos por SPSS se resumen en tres tablas. La primera tabla muestra
los datos desglosados por el factor de confusión (edad).
Tabla de contingencia TAS * IM * EDAD
Recuento
IM
EDAD Si No Total
mayor o igual que 60 TAS mayor o igual que 140 9 115 124
menor que 140 6 73 79
Total 15 188 203
menor que 60 TAS mayor o igual que 140 20 596 616
menor que 140 21 1171 1192
Total 41 1767 1808

Si además hemos seleccionado la opción Riesgo, nos ofrece los odds ratio, con sus
intervalos de confianza del 95%, para cada uno de los estratos por edad.
Estimación de riesgo
Intervalo de confianza
al 95%
EDAD Valor Inferior Superior
mayor o igual que 60 Razón de las ventajas
para TAS (mayor o igual ,952 ,325 2,787
que 140 / menor que 140)
Para la cohorte IM = Si ,956 ,354 2,581
Para la cohorte IM = No 1,004 ,926 1,087
menor que 60 Razón de las ventajas
para TAS (mayor o igual 1,871 1,006 3,479
que 140 / menor que 140)
Para la cohorte IM = Si 1,843 1,007 3,373
Para la cohorte IM = No ,985 ,969 1,001
Comprobamos, que al igual que cuando hemos efectuado los cálculos manualmente, el
odds ratio que relaciona una TAS alta con riesgo de IM es de 0.95 (Intervalo de
confianza del 95% (0.325, 2.787)) en individuos con una edad mayor o igual que 60 y
de 1.871 (Intervalo de confianza del 95% (1.006, 3.479)) en individuos menores de 60
años.
La siguiente tabla nos realiza dos contrastes de homogeneidad para los odds ratio
calculados por estrato. Es decir, rechazar la hipótesis de homogeneidad en estos
contrastes indicaría que estamos ante la presencia de interacción entre TAS y edad.
Recordamos que si hay interacción entre edad y TAS, no es aceptable calcular una
estimación global de la asociación entre TAS y riesgo de IM.
Pruebas de homogeneidad de la razón de ventajas
Sig. asintótica
Chi-cuadrado gl (bilateral)
Breslow-Day 1,156 1 ,282
De Tarone 1,153 1 ,283
En este ejemplo, ambos estadísticos nos llevan a aceptar la hipótesis de homogeneidad

entre los odds ratio (p > 0.05), por tanto rechazamos la existencia de una interacción
significativa entre TAS y edad. Es decir, sería razonable calcular una estimación global
de la asociación entre TAS y riesgo de IM, ajustando por edad.
La última tabla nos muestra la estimación global del odds ratio que relaciona una TAS
alta con riesgo de IM, ajustando por edad, también denominado odds ratio ajustado de
Mantel-Haenszel y el contraste de significación de éste.

Estimación de la razón de las ventajas común de Mantel-Haenszel

Estimación 1,569
ln(estimación) ,450
Error típ. de ln(estimación)
,276
Sig. asintótica (bilateral) ,103

Intervalo de confianza Razón de ventajas Límite inferior ,913
asintótico al 95% común Límite superior 2,694
ln(Razón de ventajas Límite inferior -,091
común) Límite superior ,991
La estimación de la razón de las ventajas común de Mantel-Haenszel se distribuye de
manera asintóticamente normal bajo el supuesto de razón de las ventajas común igual a
1,000. Lo mismo ocurre con el log natural de la estimación.
Al igual que como habíamos observado en los cálculos manuales, vemos que el odds
ratio que relaciona una TAS alta con riesgo de IM, una vez eliminado el efecto de la
edad es de 1.57, con un intervalo de confianza del 95% de (0.913, 2.694). Este intervalo
contiene el valor 1, por tanto, con un nivel de confianza del 95% podemos decir que la
asociación entre TAS y riesgo de IM, una vez eliminado el efecto de la edad, no es
estadísticamente significativa. También llegamos a la misma conclusión interpretando el
resultado del contraste de hipótesis para la significación del odds ratio ajustado; un
valor p = 0.103 > 0.05 indica que, con un nivel de significación del 5%, la asociación
entre TAS y riesgo de IM, una vez eliminado el efecto de la edad, no es
estadísticamente significativa.
9.5. ANÁLISIS DE DATOS ORDINALES

En algunos estadísticos y medidas se asume que hay unas categorías ordenadas (datos
ordinales) o unos valores cuantitativos. Otros estadísticos son válidos cuando las
variables de la tabla tienen categorías no ordenadas (datos nominales). Los
procedimientos descritos hasta ahora en estas notas, son procedimientos genéricos que
se pueden utilizar para cualquier tipo de datos categóricos que se presenten en forma de
tabla de contingencia. Esto quiere decir que no se asume que los valores de la tabla
estén ordenados, aún cuando tomen valores numéricos. Cuando los datos se presentan
en forma de categorías ordenadas, existen procedimientos estadísticos específicos para
analizar este tipo de datos, de forma que los resultados obtenidos son más precisos que
los obtenidos mediante los procedimientos genéricos descritos en apartados anteriores.
Las variables ordinales pueden ser códigos numéricos que representan categorías, por
ejemplo 1 = bajo, 2 = medio y 3 = alto, o valores cadena. Sin embargo, la mayoría de
los paquetes estadísticos asumen que el orden alfabético de los valores de cadena
indican el orden correcto de las categorías. Por ejemplo, en una variable de cadena
cuyos valores sean bajo, medio y alto, se interpreta el orden de las categorías como alto,
bajo, medio (orden que no es el correcto). Por norma general, se puede indicar que es
más fiable utilizar códigos numéricos para representar datos ordinales.
Vamos a describir brevemente los estadísticos que calcula SPSS para datos de tipo
ordinal. Cualquiera de éstos es seleccionado en las opciones que aparecen pulsando el
botón Estadísticos del cuadro de diálogo principal de la construcción de la tabla.

El coeficiente de correlación rho de Spearman es una versión no paramétrica del

coeficiente de correlación lineal de Pearson que se basa en el orden de los rangos, en
vez de en los valores reales de las variables. Este estadístico resulta apropiado para
datos ordinales o para datos continuos que no cumplen la hipótesis de normalidad.
Toma valores en el intervalo [-1, 1]. El signo del coeficiente indica la dirección y el
valor absoluto indica la fuerza de la relación entre ambas variables.
El estadístico Gamma es una medida del grado y tipo de asociación entre dos variables
de tipo ordinal. Toma valores en el intervalo [-1, 1]. Valores próximos a uno en valor
absoluto indican una asociación fuerte positiva o negativa, según el signo. Valores
próximos a cero indican no asociación. Este estadístico presenta el inconveniente de que
puede alcanzar el valor 1 (positivo o negativo) en situaciones en las que la asociación no
es total.
El estadístico Tau-b de Kendall es una extensión del estadístico Gamma. Se aplica en
las mismas situaciones que Gamma y se interpreta de la misma manera. La diferencia
con el anterior es que su expresión únicamente alcanza el valor uno, positivo o negativo,
en situaciones de total asociación, positiva o negativa respectivamente. Sin embargo,
presenta el inconveniente de que dichos valores solo pueden ser alcanzados cuando la
tabla de contingencia es cuadrada.
El estadístico Tau-c de Kendall es una corrección del estadístico Tau-b de Kendall para
el caso de que la tabla de contingencia no sea cuadrada. Presenta la ventaja de que
puede alcanzar el valor uno positivo o negativo cuando el número de categorías de las
dos variables es distinto. Sin embargo, tiende a subestimar el verdadero grado de
asociación entre las variables.
El estadístico d de Sommers es una extensión asimétrica del estadístico Gamma que
difiere solo en la inclusión del número de pares no empatados en la variable
independiente. También se calcula una versión no simétrica de este estadístico.
Al igual que en la sección anterior, para más información sobre cómo calcular y cuando
utilizar estos estadísticos se recomienda consultar la ayuda específica del cuadro de
dialogo correspondiente o el manual de SPSS. Asimismo, se recomienda utilizar un
texto de referencia para interpretar correctamente los valores de estos estadísticos
(Armitage & Berry, 1994).

También existen contrastes específicos para comparar proporciones en varias muestras

independientes, de forma que se pueda estudiar la tendencia o gradiente en la
proporción. El programa SPSS no realiza ningún contraste de tendencia en la
proporción. Para más información sobre este tipo de análisis de datos, se recomienda
consultar Fleiss, 1981.
9.6. MEDIDAS DE ACUERDO

Supongamos que deseamos realizar un estudio donde el objetivo sea conocer cómo de
fiable es la clasificación de un individuo u objeto en un grupo determinado. Si
sospechamos que la clasificación depende del criterio de clasificación, debemos realizar
un estudio de fiabilidad, midiendo el grado de acuerdo entre diferentes formas de
clasificación. Existen estadísticos, comúnmente denominados medidas de acuerdo, que
miden el grado de acuerdo o fiabilidad entre observadores.
El estadístico kappa de Cohen mide el acuerdo entre las evaluaciones de dos jueces
cuando ambos están valorando el mismo objeto. Un valor igual a uno indica un acuerdo
perfecto y un valor igual a cero indica que el acuerdo no es mejor que el que se
obtendría por azar. Este estadístico únicamente está disponible para tablas cuadradas, es
decir cuando el número de filas es igual al número de columnas.
El estadístico kappa viene dado por la siguiente expresión:
Po − Pe
κˆ =
1 − Pe
donde según la notación utilizada en la sección 9.1, Po y Pe vienen dadas por las
siguientes expresiones:
o
Po = ∑ ii (suma de las proporciones observadas en la diagonal de la tabla)
i n
z f
Pe = ∑ . i i . (suma de las proporciones esperadas en la diagonal de la tabla, bajo la
i n n
hipótesis de
independencia entre los observadores)
El estadístico kappa toma el valor 1 cuando hay acuerdo completo entre los
observadores. Cuando el acuerdo observado es mayor al que se espera por azar, el valor
de kappa es positivo y su magnitud refleja la fuerza del acuerdo. Aunque no es muy
común en la práctica, kappa puede tomar valores negativos, indicando esto que el
acuerdo alcanzado entre los observadores es menor al acuerdo esperado por azar. El
valor mínimo de kappa está entre –1 y 0, dependiendo de las proporciones marginales.
La interpretación de la magnitud de kappa es muy subjetiva y está muy ligada al campo
donde se está realizando la investigación. Al igual que otras medidas de asociación,
existen reglas más o menos difundidas para interpretar el valor de kappa. Una de las
reglas más usadas es la dada por Fleiss: valores mayores que 0.75 indican un buen
acuerdo por encima del esperado por azar, valores entre 0.4 y 0.75 indican un acuerdo
aceptable por encima del esperado por azar y valores menores de 0.4 indican un acuerdo
muy pobre por encima del esperado por azar.
En SPSS, el botón Estadísticos del cuadro de diálogo principal de la construcción de la
tabla nos pregunta qué estadísticos deseamos calcular. Para estimar el acuerdo entre
observadores debemos seleccionar Kappa.

Ejemplo 9.10: Supongamos que deseamos realizar un estudio para evaluar el acuerdo
entre dos profesionales a la hora de dar un diagnóstico psiquiátrico. La siguiente tabla
recoge el diagnóstico dado por cada uno de los dos evaluadores en 100 pacientes:
Evaluador B
Evaluador A Trastorno Trastorno Trastorno Total
psicótico neurótico orgánico
Trastorno psicótico 75 1 4 80
Trastorno neurótico 5 4 1 10
Trastorno orgánico 0 0 10 10
Total 80 5 15 100
Vamos a calcular los porcentajes observados y esperados bajo independencia de los
evaluadores en esta tabla.
o ii 75 4 10
Po = ∑i
= + +
n 100 100 100
= 0.89
z .i f i. 80 80 5 10 15 10
Pe = ∑i
= · + · + ·
n n 100 100 100 100 100 100
= 0.66
Por tanto el estadístico kappa viene dado por:

Po − Pe 0.89 − 0.66
κˆ = = = 0.68
1 − Pe 1 − 0.66
Los mismos resultados podemos obtenerlos usando el SPSS. Además, el SPSS realiza
un contraste de hipótesis para la significación del estadístico kappa, es decir contrasta la
hipótesis nula κ = 0.
Medidas simétricas
Error típ. Sig.

a b
Valor asint. T aproximada aproximada
Medida de acuerdo Kappa ,676 ,088 8,879 ,000
a. Asumiendo la hipótesis alternativa.
b. Empleando el error típico asintótico basado en la hipótesis nula.

En este caso obtenemos un valor κ = 0.68. Por tanto, según el criterio dado por Fleiss
podemos decir que hay un acuerdo aceptable por encima del esperado por azar en el
diagnóstico dado por los dos evaluadores, siendo este acuerdo estadísticamente
significativo (p < 0.001).
Existe también una versión ponderada del estadístico kappa, donde las diferencias entre
las proporciones observadas y esperadas se ponderan para cuantificar las diferencias
relativas entre las categorías. SPSS no calcula la versión ponderada, ni tampoco calcula
intervalo de confianza para el estadístico kappa.

Bondad de ajuste Bioestadística con SPSS
Tema 10: PRUEBAS DE BONDAD DE AJUSTE
10.1. INTRODUCCIÓN
Recordemos que en la mayor parte de los procedimientos estadísticos introducidos hasta
ahora subyace la presunción de normalidad. Es decir, generalmente hemos supuesto que
las muestras se extráen de poblaciones que, o bien están normalmente distribuidas, o
bien están gobernadas por una distribución aproximadamente normal. Durante muchos
años, después del descubrimiento de la curva normal, quienes hacían uso de la
estadística creyeron que cualquier variable aleatoria seguía prácticamente, una
distribución normal o, al menos, una distribución que podía aproximarse bien por una
distribución normal. A medida que trataron más datos, se constató que esto no era
cierto. No obstante, investigadores en campos de investigación muy diversos deseaban
poder utilizar los importantes métodos estadísticos desarrollados por Fisher, Pearson y
Student, que presuponen normalidad. Los profanos, que no comprendían la matemática
subyacente en estas técnicas, pensaban que la hipótesis de normalidad no era
importante, que era una ley de la naturaleza, o que se cumplía siempre por alguna
sofisticada razón matemática. La mejor descripción de la situación se encuentra en las
palabras de Lippman a Poincaré (1912) (J. S. Milton. Estadística para Biología y
Ciencias de la Salud. Interamericana-McGraw-Hill, 1994):
Todos creen en ella (la ley normal de los errores de medida); me dijo Lippman un día:
“los que experimentan se figuran que es un teorema de matemáticas y los matemáticos
que es un hecho experimental”.
Hasta aquí solo hemos indicado cómo hacer una rudimentaria comprobación de la
hipótesis de normalidad mediante el diagrama de tallos y hojas o el histograma. Si estos
diagramas adoptan forma de campana, es razonable que la distribución sea normal.
Ahora bien, si queremos salir de dudas debemos realizar una prueba de contraste para
ver si hay evidencia estadística de que los datos proceden de una distribución que no es
normal.
El ajuste a una distribución normal, aunque es el más común, no es el único que es
interesante. En ocasiones queremos saber si una distribución empírica se ajusta a una
distribución teórica predeterminada, sea ésta normal o cualquier otra. Este tipo de
contrastes de hipótesis se denominan pruebas de bondad de ajuste. Consisten en realizar
una hipótesis sobre la distribución de la población y contrastar si esta hipótesis se
sostiene a través de una muestra. Se utilizan procedimientos basados en la estimación
para ver como se ajusta la distribución de unos valores obtenidos en la muestra a una
distribución teórica.
10.2. PRUEBA JI-CUADRADO

La prueba ji-cuadrado es la prueba de bondad de ajuste más antigua y más conocida. Es
válida para ajuste de distribuciones continuas y discretas, aunque es más razonable
utilizarla para discretas.
Sea una población clasificada en Z1, Z2,…, Zk clases excluyentes y exhaustibas.
Queremos contrastar la hipótesis de que las probabilidades de estas clases son p1, p2,…,
pk, donde se cumple que p1 + p2 + … + pk = 1. Es decir,
H 0 : Las probabilidades de las k clases son p1, p2,…, pk.

H1 : Las probabilidades de las k clases no son p1, p2,…, pk.

Se selecciona una muestra aleatoria de tamaño n, siendo la frecuencia esperada para
cada clase la siguiente
e1 = n·p1; e2 = n·p2; …; ek = n·pk;
Se cumple la siguiente condición
e1 + e2 + … + ek = n·p1 + n·p2 + … + n·pk = n·( p1 + p2 + … + pk) = n·1 = n
Las frecuencias observadas en la muestra son o1, o2, …, ok, y se cumple que o1 + o2 +
… + ok = n.
La metodología que se va a desarrollar en adelante es adecuada para frecuencias
esperadas suficientemente grandes. Es decir, eij > 5 para todas las clases. Si esto no se
cumple, habrá que agrupar categorías hasta conseguir que se cumpla o utilizar otro
contraste.
El estadístico pivote utilizado para el contraste de hipótesis es
k (Oi − E i ) 2
χ2 = ∑
i =1 Ei
que bajo el supuesto de que H0 es verdad, sigue una distribución ji-cuadrado cuyos
grados de libertad dependen del hecho de que las probabilidades p1, p2,…, pk estén
totalmente especificadas o no.
• Las probabilidades p1, p2,…, pk están totalmente especificadas: En este caso,
teniendo en cuenta que se cumple la condición o1 + o2 + … + ok = n, es suficiente
conocer k - 1 frecuencias para conocer la que falta; por tanto el número de grados de
libertad es k - 1.
• Las probabilidades p1, p2,…, pk no están totalmente especificadas: Si para calcular
las frecuencias esperadas bajo H0 necesitamos estimar l parámetros, la estimación de
cada parámetro añade una relación más entre los datos, que sumadas a la que ya
existía, hace que se pierdan l + 1 grados de libertad de los k existentes; por tanto el
número de grados de libertad es k - l - 1.
En general el número de grados de libertad del estadístico viene dado por k - l – 1,
donde k representa el número de clases una vez hechos los agrupamientos necesarios y l
representa el número de parámetros que se han estimado en el cálculo de las frecuencias
esperadas.
Para realizar el contraste se evalúa el estadístico en la muestra recogida
k (oi − ei ) 2 n (o − np ) 2
χ p2 = ∑ =∑ i i
i =1 ei i =1 np i
Valores de χ p2 muy grandes nos indican que hay una diferencia significativa entre lo
observado en la muestra y lo esperado bajo H0, por tanto nos llevarán a rechazar el
ajuste teórico propuesto. Para que H0 sea una hipótesis aceptable este estadístico debe
tomar valores pequeños.
El p-valor asociado es p = P( χ k2−l −1 > χ p2 ).
Observación: La siguiente fórmula permite agilizar los cálculos necesarios para obtener
el valor del estadístico pivote

k (oi − ei ) 2 k oi2 − 2oi ei + ei2 k oi2 k k k o2 k o2

χ p2 = ∑ =∑ = ∑ − 2 ∑ oi + ∑ ei = ∑ i − 2n + n = ∑ i − n
i =1 ei i =1 ei i =1 ei i =1 i =1 i =1 ei i =1 ei
Si la distribución que queremos ajustar a través de un contraste ji-cuadrado es una

distribución continua, tendremos que categorizar la variable. El criterio más difundido
para categorizar una variable continua es realizar intervalos equiprobables con una
frecuencia superior a 3 (Gumbel, 1943).
El procedimiento para realizar un contraste de bondad de ajuste a una distribución
mediante la prueba ji-cuadrado en SPSS es >Analizar >Pruebas no paramétricas >
Prueba chi-cuadrado. En el cuadro de diálogo debe indicarse la variable que deseamos
analizar.
La opción Frecuencias esperadas nos permite indicar cuales son los valores que
debiéramos observar para las frecuencias si la hipótesis nula fuera cierta. Existe la
posibilidad de indicar que todas las frecuencias esperadas fueran iguales, lo cual
equivaldría a un hipótesis nula de uniformidad en las categorías (distribución uniforme).
En otro caso, se deben calcular las frecuencias esperadas e incluirlas en el espacio
disponible para tal fin.
Ejemplo 10.1: Se desea contrastar la hipótesis de que el número de bacterias por cada
retícula de una placa cuadriculada, cuando en ella se extiende una gota de cultivo, es
una variable aleatoria que sigue la distribución de Poisson. Para ello se extiende una
gota de la disolución del cultivo sobre una placa con 400 retículas pequeñas y se
cuentan, con el auxilio del microscopio, los números de bacterias en cada una de las
retículas.
Antes de enunciar las hipótesis necesitamos saber cuál es el parámetro de la distribución
de Poisson que queremos ajustar. Puesto que no se menciona, tendremos que estimarlo a
través de los datos. Hemos visto anteriormente que el parámetro λ de una distribución
de Poisson es su media y el estimador utilizado para la media es la media muestral. Por
tanto,
1
λ$ = x = ⋅ ∑ xi ⋅ oi = 4.68
400
H0: El número de bacterias en cada una de las retículas sigue una distribución P(4.68)
H1: El número de bacterias en cada una de las retículas no sigue una distribución
P(4.68).

número de retículas que tienen x bacterias

X: número de bacterias Observadas (oi) Esperadas (ei) oi2
ei
0 0  3.71 
20 2108
.
 
1 20 17.37 18.98
2 43 40.65 45.49
3 53 63.41 44.30
4 86 74.19 99.69
5 70 69.44 70.56
6 54 54.16 53.84
7 37 36.21 37.81
8 18 21.18 15.30
9 10 11.02 9.07
10 5  5.16 
 
 
11 2  2.19 
 
12 2  0.86 
 
13 0  9 0.31  8.66 9.35
 
14 0 

0.10 

15 0  0.03 
 
 
>15 0  0.01
Suma 400 400 404.39
La tabla anterior muestra las frecuencias observadas, las frecuencias esperadas mediante
la distribución P(4.68), los agrupamientos necesarios para conseguir que todas las
frecuencias esperadas sean mayores que 5 y una última columna para facilitar el cálculo
del estadístico pivote.
Se ha estimado un parámetro y se han agrupado categorías hasta obtener 10, por tanto el
número de grados de libertad es, k - l - 1 = 10 - 1 - 1 = 8.
El cálculo de las frecuencias esperadas se ha realizado siguiendo la distribución P(4.68)
de la siguiente manera
e −4.68 ⋅ 4.68 i
ei = n·P(X = i) = 400·
i!
donde i = 1, 2, 3,…, 15.
e −4.68 ⋅ 4.68 0
Por ejemplo, e0 = n·P(X = 0) = 400· =400·9.27·10-3 = 3.71
0!
El valor observado del estadístico pivote es
k oi2
χ 2p = ∑ − n = 404.39 - 400 = 4.39
i =1 ei
p = P( χ82 >4.39) > 0.1. Por tanto no se rechaza H0 y se acepta la hipótesis de que el
número de bacterias en cada una de las retículas sigue una distribución P(4.68).
Si utilizamos el SPSS, debemos incluir los valores esperados bajo el supuesto de que la
hipótesis nula fuera cierta. El problema está en que SPSS no acepta frecuencias
esperadas mayores que cero para valores cuya frecuencia observada sea igual a cero.
Está situación se contradice con el desarrollo del contraste, pues es una situación

perfectamente válida en la práctica. La forma de solucionar este problema pasa por

recategorizar la variable original, de forma que no haya valores con una frecuencia
observada igual a cero. En este ejemplo debemos juntar los valores 0 y 1 (el valor 0 no
se observa en la muestra) y todos los valores mayores que 12 con el 12 (no se observa
ningún valor mayor que 12). Esta recategorización debe tenerse en cuenta al introducir
los valores esperados.
Si observamos los resultados ofrecidos por SPSS, nos damos cuenta de que existen
valores esperados menores que 5 (el SPSS avisa de ello), pero no lo tiene en cuenta en
el análisis.
Numero de bacterias
N observado N esperado Residual

1 20 21,1 -1,1
2 43 40,7 2,3
3 53 63,4 -10,4
4 86 74,2 11,8
5 70 69,4 ,6
6 54 54,2 -,2
7 37 36,2 ,8
8 18 21,2 -3,2
9 10 11,0 -1,0
10 5 5,2 -,2
11 2 2,2 -,2
12 2 1,3 ,7
Total 400
Estadísticos de contraste
Numero de
bacterias
Chi-cuadradoa 4,759
gl 11
Sig. asintót. ,942
a. 2 casillas (16,7%) tienen frecuencias
esperadas menores que 5. La frecuencia
de casilla esperada mínima es 1,3.

Por tanto, esto debe ser resuelto por el analista en el proceso de análisis, es decir,
debemos recategorizar la variable para que no aparezcan valores esperados de las
frecuencias menores que 5. En este caso, debemos juntar todos los valores de la variable
mayores o iguales que 10, al igual que lo hemos hecho en el desarrollo del ejercicio sin
ayuda del SPSS.
Los resultados ofrecidos por SPSS son una primera tabla de valores observados y
esperados para las frecuencias, junto con la diferencia entre ambas (lo cual denomina
residual) y una segunda tabla con los resultados del contraste de hipótesis. En el
ejemplo obtenemos un valor del estadístico de 4.39 (igual al obtenido anteriormente) y
un valor p = 0.884 no significativo. Por tanto, no se rechaza H0 y se acepta la hipótesis
de que el número de bacterias en cada una de las retículas sigue una distribución de
Poisson. Cabe destacar el hecho de que el SPSS identifica 9 grados de libertad, mientras
que el procedimiento básico que hemos realizado a mano identifica 8 grados de libertad.
Esta diferencia radica en que los valores observados le han sido designados al
procedimiento de SPSS, por tanto desconoce el hecho de que se haya estimado un
parámetro en el proceso.
Numero de bacterias

Menor o igual que 1 20 21,1 -1,1
2 43 40,7 2,3
3 53 63,4 -10,4
4 86 74,2 11,8
5 70 69,4 ,6
6 54 54,2 -,2
7 37 36,2 ,8
8 18 21,2 -3,2
9 10 11,0 -1,0
Mayor o igual que 10 9 8,7 ,3
Total 400
Numero de
bacterias
Chi-cuadrado a 4,388
gl 9
Sig. asintót. ,884
a. 0 casillas (,0%) tienen frecuencias

Vistos estos resultados, llegamos a la conclusión de que la manera en que el SPSS

realiza la prueba ji.cuadrado de bondad de ajuste no es muy efectiva, excepto en el caso
de pocas categorías en la variable o frecuencias esperadas iguales en todas las categorías
Vemos un segundo ejemplo, donde la utilidad del SPSS para realizar esta prueba es más
clara.
Ejemplo 10.2: De 64 descendientes de un cruce entre cobayas, 34 eran rojas, 10 negras
y 20 blancas. Según el modelo proporcionado por la genética, estos números deberían
estar en la proporción 9:3:4. Veamos si estos datos se ajustan al modelo.
La proporción 9:3:4 nos indica que de 16 cobayas, esperamos 9 rojas, 3 negras y 4
blancas. Es decir, las proporciones deberían ser 0.56, 0.19 y 0.25. Por tanto, de 64
esperamos 35.8 rojas, 12.2 negras y 16 blancas.
Por tanto, el contraste de bondad de ajuste que se propone es
H0: P(Rojo) = 0.56; P(Negro) = 0.19; P(Blanco) = 0.25.
H1: No.
La siguiente tabla muestra los resultados ofrecidos por SPSS
Color de las cobayas

Rojo 34 35,8 -1,8
Negro 10 12,2 -2,2
Blanco 20 16,0 4,0
Total 64
Color de las
cobayas
Chi-cuadradoa 1,487
gl 2
Sig. asintót. ,475
a. 0 casillas (,0%) tienen frecuencias
El valor del estadístico pivote es χ 2p = 1.487 y el valor p = 0.475. Por tanto, no se

rechaza la hipótesis nula. Es decir, los datos obtenidos en la muestran concuerdan con el
modelo proporcionado por la genética.
10.3. PRUEBA K-S DE KOLMOGOROV-SMIRNOV

En este contraste se comparan la función de distribución teórica y empírica (polígono de
frecuencias acumuladas). Es válido únicamente para variable aleatorias continuas. La
hipótesis nula es que la muestra ha sido extraída de una población cuya función de
distribución es F0(x). El contraste de Kolmogorov-Smirnov compara la función de
distribución empírica con F0(x), cuando la diferencia entre ambas es grande se rechaza
H0.
No vamos a desarrollar las fórmulas necesarias para realizar estos contrastes a mano,
puesto que es una labor bastante tediosa y se pueden realizar fácilmente utilizando
cualquier software estadístico, por ejemplo el SPSS.

La ventaja que tiene este contraste sobre la ji-cuadrado es que en el caso de ajuste de
distribuciones continuas, no necesitamos categorizar la variable, por tanto la pérdida de
información es mínima.
El procedimiento para realizar un contraste de bondad de ajuste a una distribución
mediante la prueba de Kolmogorov-Smirnov en SPSS es >Analizar >Pruebas no
paramétricas > Prueba K-S de una muestra. En el cuadro de diálogo debe indicarse la
variable que deseamos analizar.
El procedimiento nos permite realizar el contraste para la distribución normal, la

uniforme la de Poisson y la exponencial.
Existe una variante de este contraste, desarrollada por Lilliefors, para calcular la
significación en el caso concreto de un contraste de bondad de ajuste a la distribución
normal. La opción utilizada por el SPSS en el procedimiento Prueba K-S de una
muestra no utiliza la corrección de Lilliefors, sino que utiliza el estadístico original de
Kolmogorv-Smirnov.
Ejemplo 10.3: Retomamos los datos descritos en el ejemplo 6.3. Se dispone de 105
pacientes, de los cuales 55 son pacientes con isquemia crónica y 50 son un grupo de
controles. Entre otras variables, se ha recogido el nivel de colesterol. Supongamos que
queremos ver si la variable nivel de colesterol, utilizada en el análisis realizado en el
ejemplo 6.3, sigue una distribución normal, utilizando el contraste K-S de Kolmogorov-
Smirnov para contrastar la normalidad.
H0: Nivel de colesterol sigue una distribución normal
H1: Nivel de colesterol no sigue una distribución normal
Prueba de Kolmogorov-Smirnov para una muestra
COL
N 105
Parámetros normalesa,b Media 224,57
Desviación típica
43,673
Diferencias más Absoluta ,077

extremas Positiva ,077
Negativa -,044
Z de Kolmogorov-Smirnov ,787
Sig. asintót. (bilateral) ,566
a. La distribución de contraste es la Normal.
b. Se han calculado a partir de los datos.

Tenemos un valor p=0.566. Por tanto, no rechazamos la hipótesis nula y podemos

aceptar que el nivel de colesterol proviene de una distribución normal.
10.4. PRUEBA DE SHAPIRO-WILKS

Este contraste consiste en colocar los valores de la muestra en papel probabilístico
normal y estudiar la bondad del ajuste de estos datos a una recta. Cuando el ajuste es
malo los valores del estadístico son pequeños y por tanto se rechaza H0.
Tampoco se va a desarrollar formalmente este contraste. El objetivo de mencionarlo es
saber que existe y cuál es su función.
De entre las dos pruebas de bondad de ajuste a una distribución normal presentadas, la
primera, contraste de Kolmogorov-Smirnov-Lilliefors es particularmente útil para
tamaños de muestra pequeños; mientras que el contraste de Shapiro-Wilks se usa más
frecuentemente con muestras de tamaño grande.
El SPSS realiza este contraste, junto con la correción de Lilliefors para contrastar la
normalidad por medio del estadístico de Kolmogorov-Smirnov, en el apartado destinado
a explorar los datos >Analizar >Estadísticos descriptivos >Explorar, si se le piden los
gráficos seleccionados con pruebas de normalidad.
Ejemplo 10.4: Volviendo a los datos del ejemplo 10.3, realizamos una estadística
descriptiva del nivel de colesterol utilizando el procedimiento >Analizar >Estadísticos
descriptivos >Explorar. Añadimos los contrastes de normalidad en la opción destinada
a gráficos, como se ve en la siguiente figura. Este procedimiento realiza el contraste de
normalidad por medio del estadístico de Kolmogorov-Smirnov-Lilliefors y el
estadístico de Shapiro-Wilks.

Los resultados obtenidos son los siguientes:
Pruebas de normalidad
a
Kolmogorov-Smirnov Shapiro-Wilk
Estadístico gl Sig. Estadístico gl Sig.
COL ,077 105 ,143 ,983 105 ,186
a. Corrección de la significación de Lilliefors
El contraste de Kolmogorov-Smirnov-Lilliefors nos da un valor p=0.143, mientras que

el contraste de Shapiro-Wilks nos da un valor p=0.186. Ambos contrastes nos ofrecen
resultados equivalentes, no rechazamos la hipótesis nula. Por tanto, podemos aceptar
que el nivel de colesterol proviene de una distribución normal.
Debemos destacar el hecho de que el valor p ofrecido por el contraste de Kolmogorov-
Smirnov bajo ambos procedimientos es distinto. La razón es que el procedimiento
Prueba K-S de una muestra utiliza el estadístico original de Kolmogorv-Smirnov,
mientras que el procedimiento >Analizar >Estadísticos descriptivos >Explorar utiliza
la corrección de Lilliefors.

Estadística no paramétrica Bioestadística con SPSS
Tema 11: ESTADÍSTICA NO PARAMÉTRICA
11.1. INTRODUCCIÓN
Hemos visto en capítulos anteriores que la normalidad es necesaria, o al menos
deseable, para utilizar la mayoría de las técnicas estadísticas que se han desarrollado. La
pregunta natural a responder es ¿qué hacer cuando no se da la presunción de
normalidad? Hay dos formas de actuar. Primera: podemos intentar transformar los datos
de tal manera que tenga consistencia la presunción de normalidad. Segunda: podemos
desarrollar métodos estadísticos que presupongan poco acerca de la distribución de la
población muestreada. Tales métodos se llaman métodos de distribución libre o
métodos no paramétricos. En este capítulo se discuten algunas de las técnicas de
distribución libre más frecuentes. En particular, se incluyen procedimientos paralelos a
los ya tratados. Así dispondremos de alternativas viables para muchos procedimientos
de la teoría normal.
Los procesos estadísticos de distribución libre tienen algunas características muy
atractivas. Para utilizarlos, en ocasiones, sólo se requieren pequeños cálculos que
pueden realizarse muy rápidamente. Cuando los tamaños muestrales son pequeños (n ≤
10), es difícil detectar violaciones en los supuestos de la teoría normal, lo cual puede ser
causa de importantes efectos negativos. Sin embargo, las pruebas de distribución libre
tienen, para muestras pequeñas, una utilidad comparable a las de la teoría normal,
incluso cuando se cumplen todos los supuestos requeridos para ésta. Si éste no es el
caso, los procesos de distribución libre son, habitualmente, superiores. Por lo tanto,
salvo que se den los supuestos clásicos, para muestras pequeñas, lo más aconsejable es
elegir la prueba de distribución libre. Varios de estos métodos se basan más en el
análisis de los rangos que en las propias observaciones. Por ello, estas técnicas se
utilizan más con datos de rangos que con observaciones o recuentos.
Por tanto utilizaremos las técnicas de distribución libre o no paramétricas en los
siguientes supuestos:
• Cuando analicemos variables continuas y siendo necesario, no se cumpla el
supuesto de normalidad.
• En el análisis de variables discretas ordinales. Especialmente en escalas crudas
como: excelente, muy bien, regular, mal, muy mal.
Los principales inconvenientes de estos métodos son:
• Se basan en signos y rangos únicamente, por tanto hay una pérdida de información
importante.
• Se basan exclusivamente en el contraste de hipótesis, dejando a un lado la
estimación puntual e intervalos de confianza.
11.2. PRUEBA DE LOS SIGNOS

La prueba de los signos es el contraste no parámetrico más simple para realizar un
contraste de hipótesis sobre la mediana de una población. Si el valor hipotético de la
mediana es M0, se identifica con un signo + cada valor de la muestra superior a M0 y
con un signo – cada valor de la muestra inferior a la mediana. Si la hipótesis nula es
cierta, la distribución es simétrica, por tanto el número de signos negativos y positivos
ha de ser aproximadamente el mismo. Si uno de los signos aparece más frecuentemente

de lo que es esperado por azar, rechazaremos la hipótesis de que la mediana de la

población es M0.
Las únicas condiciones para utilizar esta prueba es que la variable sea continua y las
observaciones sean independientes.
Sea X una variable aleatoria continua con mediana M. Sea X1, X2, ..., Xn una muestra
aleatoria de tamaño n de la distribución de X. Si M0 designa el valor hipotético de la
mediana, el contraste de hipótesis puede ser cualquiera de los tres habituales.
Los pasos a seguir para realizar esta prueba son los siguientes:
1. Formular el contraste de hipótesis en cualquiera de las formas habituales:
Dos colas H0: M = M 0
H1: M ≠ M 0
Cola a la izquierda H0: M ≥ M 0
H1: M < M 0
Cola a la derecha H0: M ≤ M 0
H1: M > M 0
2. Calcular las diferencias entre los valores de X y M0. Es decir D = X - M0
3. Definir el estadístico pivote,
S+ ≡ Número de signos positivos de la variable D.
s, es el valor que toma el estadístico S+ en la muestra.
Bajo el supuesto de que H0 es cierto, S+ sigue una distribución binomial de
parámetros n, ½, S+: Bin(n, ½)
4. Calcular el valor p. Sea B una variable aleatoria con distribución Bin(n, ½).
Entonces:
Dos colas: s < n/2 ⇒ p = 2·P(B ≤ s)
s ≥ n/2 ⇒ p = 2·P(B ≥ s)
Cola a la izquierda: p = P(B ≤ s)
Cola a la derecha: p = P(B ≥ s)
Nota: En teoría en la muestra no debe haber ningun valor igual a M0, puesto que la
variable es continua. Sin embargo, en la práctica esto puede ocurrir. Tenemos varias
alternativas:
• Eliminar estos datos, de forma que el tamaño muestral disminuye.
• Si son muchos, además de eliminarlos conviene estimar P(D = 0) a través de su
frecuencia relativa.
• Si se plantea un contraste unilateral, dejarlos a un lado u otro dependiendo de la
hipótesis
Ejemplo 11.1: Se cree que el nivel medio de homocisteina en pacientes isquémicos es
de 12. Se dispone de una muestra de 11 pacientes con isquemia, de los cuales
conocemos el nivel de homocisteina. Vamos a utilizar la prueba de los signos.
H0: M = 12
H1: M ≠ 12

Se organizan los datos de la siguiente manera:

xi 8.5 8.8 9 9.3 10.0 11.6 11.8 12 13.0 13.2 14.7
di = xi - 1.8 -3.5 -3.2 -3 -2.7 -2 -0.4 -0.2 0 1 1.2 2.7
Signo − − − − − − − + + +
Entonces, s = 3.
Se ha eliminado el valor 12 de la lista de valores.Por tanto, n = 10 y s < n/2 = 5
p = 2·P(B ≤ 3) = 2·[P(B = 0) + P(B = 1) + P(B = 2) + P(B = 3)] =
= 2·(0.001 + 0.0098 + 0.0439 + 0.1172) = 0.3438 > 0.05 ⇒ No rechazar H0.
Es decir, no rechazamos que el nivel medio de homocisteina en pacientes isquémicos es
de 12.
Observaciones:
1. La ventaja principal de esta prueba es que requiere muy poco cálculo y, por lo
tanto, es rápida y fácil de aplicar. Además es una prueba no sensible a los valores
atípicos.
2. Si el tamaño muestral es grande, podemos aproximar la distribución binomial
mediante la normal. Si n > 10 se acepta que S+: N(n/2, n 2 ).
3. La desventaja principal de esta prueba es que sólo considera los signos de los
valore, por tanto la pérdida de información es importante.
4. El SPSS no realiza esta prueba.
11.3. PRUEBA DE LOS RANGOS CON SIGNO DE WILCOXON

Esta prueba desarrollada por F. Wilcoxon en 1945, contrasta la hipótesis nula de que
una distribución es simétrica en torno a una mediana hipotética M0.
Sea X una variable aleatoria continua con mediana M. Sea X1, X2, ..., Xn una muestra
aleatoria de tamaño n de la distribución de X. Considerese el conjunto de las diferencias
X1 – M0, X2 – M0, ..., Xn – M0. si la hipótesis nula es cierta, entonces estas diferencias
han sido tomadas de una distribución que es simétrica con respecto a cero. Dejando a un
lado el signo de las diferencias, se consideran en valor absoluto y se ordenan de menor a
mayor. En función del lugar que ocupan en la ordenación, se les asigna un rango a cada
una de las diferencias. Si hay más de una diferencia igual, se toma el rango medio del
conjunto de diferencias iguales. Si la hipótesis nula es cierta, la distribución es
simétrica y por tanto la suma de rangos de las diferencias positivas y la suma de rangos
de las diferencias negativas han de ser apriximadamente iguales. Sean T+ y T- los
estadísticos que designan la suma de rangos de las diferencias positivas y la suma de
rangos de las diferencias negativas, respectivamente.
n
n(n + 1)
T+ + T- = ∑i =
i =1 2
Si H0 es cierta, estos dos estadísticos tienen la misma distribución y su esperanza y su
varianza vienen dadas por las siguientes expresiones
n(n + 1) n(n + 1)(2n + 1)
E (T+ ) = E (T− ) = , Var (T+ ) = Var (T− ) = .
4 24
Los pasos a seguir para realizar esta prueba son los siguientes:

1. Formular el contraste de hipótesis en cualquiera de las formas habituales:

Dos colas H0: M = M 0
H1: M ≠ M 0
Cola a la izquierda H0: M ≥ M 0
H1: M < M 0
Cola a la derecha H0: M ≤ M 0
H1: M > M 0
2. Calcular las diferencias entre los valores de X y M0. Es decir D = X - M0
3. Calcular y ordenar de menor a mayor los valores de |D|
4. Asignar a cada valor de |D| el rango correspondiente (h(i) ≡ rango de |Di|).
Solucionar los empates utilizando el rango medio.
5. Definir los estadísticos pivote:
T+ = Suma de los rangos de las diferencias positivas
T- = Suma de los rangos de las diferencias negativas
Designamos por t+ y t- los valores de los estadísticos en la muestra.
Si H0 es cierta, la distribución de ambas variables es la misma. Por tanto
designamos por T indistintamente a T+ o T-.
6. Definimos t0 = max(t+, t-) y calculamos el valor p:
Contraste unilateral: p = P(T > t0)
Contraste bilateral: p = 2·P(T > t0)
Los valores críticos de la distribución de T se obtienen en las tablas disponibles en
cualquier texto de estadística.
Observaciones:
1. Esta prueba es más potente que la prueba de los signos. Es decir, se obtienen p-
valores más pequeños.
2. Además, si designamos por T indistintamente a T+ o T-, se cumple la siguiente
igualdad
P (T ≥ t0 ) = P (T ≤ T+ + T− − t0 )
3. Si el tamaño muestral es grande (n > 15), podemos aproximar la distribución de T
mediante la normal de la siguiente manera
T − E (T )
≈ N (0,1)
Var (T )
4. El SPSS no realiza esta prueba.
Ejemplo 11.2: Vamos a analizar los datos del ejemplo 11.1 por medio de la prueba de
los rangos con signo.
H0: M = 12
H1: M ≠ 12
Calculamos las diferencia y sus rangos

xi 8.5 8.8 9 9.3 10.0 11.6 11.8 12 13.0 13.2 14.7

di = xi - 1.8 -3.5 -3.2 -3 -2.7 -2 -0.4 -0.2 0 1 1.2 2.7
Rango: h(i) 1 2 3 4.5 6 9 10 8 7 4.5
Al igual que antes, descartamos el valor 12 y tenemos n = 10. Por tanto
Entonces, t+= 19.5, t- = 19.5. Por tanto, t0 = 35.5.
Mirando la tabla para el contraste de los rangos con signo de Wilcoxon, el valor crítico
para n = 10 y un nivel de significación de 0.05 es 48. Es decir, valores mayores que 48
rechazan la hipótesis nula. Por tanto, no rechazamos que el nivel medio de homocisteina
en pacientes isquémicos es de 12.
11.4. PRUEBA DE LA SUMA DE LOS RANGOS DE WILCOXON

Esta prueba puede utilizarse para comparar la posición de dos poblaciones continuas,
basándonos en muestras independientes de tamaños n1 y n2 extraídas de estas
poblaciones.
Sean X e Y variables aleatoria continuas. Sean X1, X2, …, X n1 y Y1, Y2, …, Yn2 muestras
aleatorias independientes de tamaños n1 y n2, de las distribuciones de X e Y,
respectivamente. Supongamos que n1 ≤ n2. Esto es, supongamos que las X representan la
muestra más pequeña. La hipótesis nula es que las poblaciones X e Y son idénticas.
Queremos contrastar estas hipótesis con un contraste que es especialmente idóneo para
rechazar H0 si las poblaciones difieren en posición. Las n1 + n2 observaciones se funden
para formar una única muestra. Las observaciones e ordenan linealmente y se les asigna
un rango de 1 a n1 + n2, conservando su identidad de grupo. Se asigna a las
coincidencias que aparezcan la media de los rangos que les corresponderían, como en el
contraste anterior. Sean WX y WY la suma de los rangos correspondientes a los valores
de X y a los valores de Y, respectivamente. El estadístico pivote va a ser el asociado a
las observaciones que originalmente constituyeron la muestra menor (valores de X). La
lógica que está detrás de este contraste es la siguiente: si la población X está situada por
debajo de la población Y, entonces los rangos menores tenderán a asociarse a los valores
de X. Ello produciría un valor pequeño de WX. Si es cierto lo contrario, entonces los
rangos mayores se encontrarán entre las X, dando lugar a un gran valor de WX. De este
modo, rechazaremos H0 si el valor observado de WX fuera demasiado pequeño o
demasiado grande para que se debiera al azar.
Los valores críticos de la distribución de WX se obtienen en las tablas disponibles en
cualquier texto de estadística.
El procedimiento para realizar un contraste no paramétrico mediante la prueba de la
suma de los rangos de Wilcoxon en SPSS es >Analizar >Pruebas no paramétricas > 2
muestras independientes. En el cuadro de diálogo deben indicarse la variable que
deseamos analizar y la variable de agrupación que se utiliza para dividir la muestra en
dos grupos. Debe utilizarse la opción Definir grupos para indicar los valores que toma
la variable de indicación.

Ejemplo 11.3: Retomamos los datos descritos en el ejemplo 6.3. Se dispone de 105
controles. Entre otras variables, se ha recogido el nivel de ácido fólico. Supongamos
que queremos saber si existen diferencias significativas en el nivel de ácido fólico entre
casos y controles.
En primer lugar realizamos un contraste de normalidad para la variable ácido fólico y
obtenemos un valor p = 0.012. Por tanto, rechazamos que la variable ácido fólico siga
una distribución normal.
Prueba de Kolmogorov-Smirnov para una muestra
FOLICO
N 104
Parámetros normales a,b Media 7,363
Desviación típica
3,339
Diferencias más Absoluta ,157

extremas Positiva ,157
Negativa -,090
Z de Kolmogorov-Smirnov 1,598
a. La distribución de contraste es la Normal.
b. Se han calculado a partir de los datos.
Ante este resultado, no podemos utilizar el contraste t de comparación de medias para

comparar el nivel de ácido fólico entre casos y controles. En su lugar, utilizamos como
alternativa la prueba de la suma de los rangos de Wilcoxon. Los resultados obtenidos se
muestran en las siguientes tablas:

Rangos
Rango Suma de
GRUPO N promedio rangos
FOLICO Control 49 60,69 2974,00
Caso 55 45,20 2486,00
Total 104
Estadísticos de contrastea
FOLICO
U de Mann-Whitney 946,000
W de Wilcoxon 2486,000
Z -2,615
a. Variable de agrupación: GRUPO
El valor p = 0.009 < 0.05. Por tanto, se rechaza la hipótesis nula. Es decir, existen
diferencias en el ácido fólico entre casos y controles.
SPSS proporciona también el estadístico U de Mann-Withney, el cual es una
transformación lineal del estadístico W de Wilcoxon. Por tanto, se trata de test
completamente equivalentes.
Observación: Si el tamaño muestral es grande (n1 > 10 y n2 > 10), podemos aproximar
la distribución de WX mediante la normal de la siguiente manera:
W1 − E (W1 )
≈ N (0,1)
Var (W1 )
11.5. PRUEBA DE KRUSKAL-WALLIS

La idea de utilizar sumas de rangos para comprobar dos poblaciones basadas en
muestras aleatorias independientes extraídas de poblaciones, puede extenderse a más de
dos poblaciones. El contraste resultante fue desarrollado por W. H. Kruskal y W. A.
Wallis en 1952.
Supongamos que de k poblaciones continuas se extraen muestras aleatorias
independientes de tamaños n1, n2, ..., nk, respectivamente. Queremos contrastar la
hipótesis nula de que estas poblaciones son idénticas mediante un contraste que es
especialmente sensible a diferencias de posición. Para hacerlo, las n1 + n2 +... + nk = N
observaciones se agrupan y se ordenan de menos a mayor. De esta forma, reciben un
rango de 1 a N, asignándose a las coincidencias la media de los rangos que les
correspondería, como en los contrastes de Wilcoxon.
Sea Ri tal que i = 1, 2, ..., k, la suma de los rangos asociada con las observaciones
extraídas de la i-ésima población. Si la hipótesis nula de no diferencia entre las
poblaciones es cierta, entonces los rangos se dispersarán aleatoriamente a través de las k
muestras; si una o más poblaciones se sitúan por encima de las otras, entonces en las
muestras que se extraigan de estas poblaciones los rangos más altos estarán agrupados.
De este modo, si H0 es cierta, el rango medio asociado con cada grupo será de tamaño
moderado; de lo contrario se dispersará el valor de una o más de estas medias de rangos.
El estadístico de Kruskal-Wallis viene dado por

2
12 k
 N +1
H= ∑ ni  Ri −
N ( N + 1) i =1  2 

Donde Ri es el rango medio de las observaciones extraídas de la i-ésima población.

El estadístico de Kruskal-Wallis compara esencialmente los rangos promedio
observados para las k muestras con los esperados bajo H0. Si hay una discrepancia
considerable, entonces H será grande. Ello implica que deberá rechazarse H0 para
valores grandes de H. Si H0 es cierta, H sigue aproximadamente una distribución ji-
cuadrado con k – 1 grados de libertad.
Observación: Existe una fórmula que facilita el cálculo del estadístico de Kruskal-
Wallis.
12 k
Ri2
H= ∑ − 3( N + 1)
N ( N + 1) i =1 ni
El procedimiento para realizar un contraste no paramétrico mediante la prueba de
Kruskal-Walis en SPSS es >Analizar >Pruebas no paramétricas > k muestras
independientes. En el cuadro de diálogo deben indicarse la variable que deseamos
analizar y la variable de agrupación que se utiliza para dividir la muestra en dos grupos.
El contraste de Kruskal-Walis se realiza seleccionando la opción correspondiente.
Debe utilizarse la opción Definir rango para indicar los valores que toma la variable de
indicación.
Ejemplo 11.4: Para determinar el efecto de la hemodiálisis sobre el tamaño del hígado
se estudian tres poblaciones: controles normales, pacientes renales no dializados y
pacientes dializados. Se obtienen muestras aleatorias de cada población y se utilizan

aparatos de medida para determinar el área del hígado en cm2 para cada individuo. Se
obtienen los siguientes datos (el rango de la observación viene dado entre paréntesis).
Controles normales Pacientes no dializados Pacientes dializados
206.9 (14) 194.6 (11) 288.0 (21)
150.0 (5) 145.6 (3) 269.2 (20)
197.3 (12) 174.9 (8) 288.3 (22)
173.2 (7) 187.5 (9) 357.5 (24)
147.2 (4) 223.4 (17) 229.2 (18)
143.8 (2) 143.0 (1) 249.0 (19)
192.6 (10) 170.0 (6) 346.1 (23)
216.6 (16)
202.6 (13)
213.5 (15)
Las sumas de los rangos son:
R1 = 54 (n1 = 7)
R2 = 55 (n2 = 7)
R3 = 191 (n3 = 10)
N = 24
El valor del estadístico pivote es H = 14.94 y el número de grados de libertad es k – 1 =
3 – 1 = 2.
p = P( χ 22 > 14.94) < 0.005
Por tanto se rechaza H0 y podemos concluir que existen diferencias en el tamaño del
hígado entre las tres poblaciones.
Los resultados obtenidos en SPSS se reducen a las siguientes tablas:

Rangos
Rango
Grupo a estudio N promedio
Tamaño del higado Controles 7 7,71
Pacientes no dializados 7 7,86
Pacientes dializados 10 19,10
Total 24
Estadísticos de contrastea,b
Tamaño
del higado
Chi-cuadrado 14,936
gl 2
Sig. asintót. ,001
a. Prueba de Kruskal-Wallis
b. Variable de agrupación: Grupo a estudio
Observamos en esta última tabla un valor p = 0.001. Por tanto se rechaza H0 y podemos
concluir que existen diferencias en el tamaño del hígado entre las tres poblaciones.

Ejemplo 11.5: Continuamos con los datos del ejemplo 11.3. Se dispone de 105
controles. Entre otras variables, se ha recogido el nivel de ácido fólico y el consumo de
tabaco (fumador, no fumador y ex-fumador). Supongamos que queremos saber si el
consumo de tabaco tiene una influencia significativa en el nivel de ácido fólico.
Como la variable ácido fólico no sigue una distribución normal debemos utilizar
pruebas no paramétricas. En este caso, se trata de comparar más de 2 muestras
independientes, en concreto 3, así que la prueba más adecuada es la prueba de Kruskal-
Wallis.
Los resultados obtenidos en SPSS se reducen a las siguientes tablas:
Rangos
Rango
TABACON N promedio
FOLICO no 29 59,50
si 55 46,63
ex 20 58,50
Total 104
Estadísticos de contrastea,b
FOLICO
Chi-cuadrado 4,440
gl 2
Sig. asintót. ,109
a. Prueba de Kruskal-Wallis
b. Variable de agrupación: TABACON
El valor p = 0.109 > 0.05. Por tanto, no se rechaza la hipótesis nula. Es decir, las tres
poblaciones no difieren respecto del ácido fólico, o lo que es lo mismo, el hábito de
fumar no influye en el nivel de ácido fólico.

Tablas Bioestadística con SPSS
Tabla 1: Distribución normal estandarizada Z: N(0.1).

f(z)
+∞ 1
∫ e − z 2 dz
2
zα
2π
α
zα
zα 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09
0.0 0.5000 0.4960 0.4920 0.4880 0.4840 0.4801 0.4761 0.4721 0.4681 0.4641
0.1 0.4602 0.4562 0.4522 0.4483 0.4443 0.4404 0.4364 0.4325 0.4286 0.4247
0.2 0.4207 0.4168 0.4129 0.4090 0.4052 0.4013 0.3974 0.3936 0.3897 0.3859
0.3 0.3821 0.3783 0.3745 0.3707 0.3669 0.3632 0.3594 0.3557 0.3520 0.3483
0.4 0.3446 0.3409 0.3372 0.3336 0.3300 0.3264 0.3228 0.3192 0.3156 0.3121
0.5 0.3085 0.3050 0.3015 0.2981 0.2946 0.2912 0.2877 0.2843 0.2810 0.2776
0.6 0.2743 0.2709 0.2676 0.2643 0.2611 0.2578 0.2546 0.2514 0.2483 0.2451
0.7 0.2420 0.2389 0.2358 0.2327 0.2296 0.2266 0.2236 0.2206 0.2177 0.2148
0.8 0.2119 0.2090 0.2061 0.2033 0.2005 0.1977 0.1949 0.1922 0.1894 0.1867
0.9 0.1841 0.1814 0.1788 0.1762 0.1736 0.1711 0.1685 0.1660 0.1635 0.1611
1.0 0.1587 0.1562 0.1539 0.1515 0.1492 0.1469 0.1446 0.1423 0.1401 0.1379
1.1 0.1357 0.1335 0.1314 0.1292 0.1271 0.1251 0.1230 0.1210 0.1190 0.1170
1.2 0.1151 0.1131 0.1112 0.1093 0.1075 0.1056 0.1038 0.1020 0.1003 0.0985
1.3 0.0968 0.0951 0.0934 0.0918 0.0901 0.0885 0.0869 0.0853 0.0838 0.0823
1.4 0.0808 0.0793 0.0778 0.0764 0.0749 0.0735 0.0721 0.0708 0.0694 0.0681
1.5 0.0668 0.0655 0.0643 0.0630 0.0618 0.0606 0.0594 0.0582 0.0571 0.0559
1.6 0.0548 0.0537 0.0526 0.0516 0.0505 0.0495 0.0485 0.0475 0.0465 0.0455
1.7 0.0446 0.0436 0.0427 0.0418 0.0409 0.0401 0.0392 0.0384 0.0375 0.0367
1.8 0.0359 0.0351 0.0344 0.0336 0.0329 0.0322 0.0314 0.0307 0.0301 0.0294
1.9 0.0287 0.0281 0.0274 0.0268 0.0262 0.0256 0.0250 0.0244 0.0239 0.0233
2.0 0.0228 0.0222 0.0217 0.0212 0.0207 0.0202 0.0197 0.0192 0.0188 0.0183
2.1 0.0179 0.0174 0.0170 0.0166 0.0162 0.0158 0.0154 0.0150 0.0146 0.0143
2.2 0.0139 0.0136 0.0132 0.0129 0.0125 0.0122 0.0119 0.0116 0.0113 0.0110
2.3 0.0107 0.0104 0.0102 0.0099 0.0096 0.0094 0.0091 0.0089 0.0087 0.0084
2.4 0.0082 0.0080 0.0078 0.0075 0.0073 0.0071 0.0069 0.0068 0.0066 0.0064
2.5 0.0062 0.0060 0.0059 0.0057 0.0055 0.0054 0.0052 0.0051 0.0049 0.0048
2.6 0.0047 0.0045 0.0044 0.0043 0.0041 0.0040 0.0039 0.0038 0.0037 0.0036
2.7 0.0035 0.0034 0.0033 0.0032 0.0031 0.0030 0.0029 0.0028 0.0027 0.0026
2.8 0.0026 0.0025 0.0024 0.0023 0.0023 0.0022 0.0021 0.0021 0.0020 0.0019
2.9 0.0019 0.0018 0.0018 0.0017 0.0016 0.0016 0.0015 0.0015 0.0014 0.0014
3.0 0.0013 0.0013 0.0013 0.0012 0.0012 0.0011 0.0011 0.0011 0.0010 0.0010
3.1 0.0010 0.0009 0.0009 0.0009 0.0008 0.0008 0.0008 0.0008 0.0007 0.0007
3.2 0.0007 0.0007 0.0006 0.0006 0.0006 0.0006 0.0006 0.0005 0.0005 0.0005
3.3 0.0005 0.0005 0.0005 0.0004 0.0004 0.0004 0.0004 0.0004 0.0004 0.0003
3.4 0.0003 0.0003 0.0003 0.0003 0.0003 0.0003 0.0003 0.0003 0.0003 0.0002
3.5 0.0002 0.0002 0.0002 0.0002 0.0002 0.0002 0.0002 0.0002 0.0002 0.0002
3.6 0.0002 0.0002 0.0001 0.0001 0.0001 0.0001 0.0001 0.0001 0.0001 0.0001

Tabla 2: Distribución ji-cuadrado χ 2n . f(x)
α
2
0 χ α; n
α 0.995 0.99 0.98 0.975 0.95 0.90 0.10 0.05 0.025 0.02 0.01
n
1 0.000 0.000 0.001 0.001 0.004 0.016 2.706 3.841 5.024 5.412 6.635
2 0.010 0.020 0.040 0.051 0.103 0.211 4.605 5.991 7.378 7.824 9.210
3 0.072 0.115 0.185 0.216 0.352 0.584 6.251 7.815 9.348 9.837 11.345
4 0.207 0.297 0.429 0.484 0.711 1.064 7.779 9.488 11.143 11.668 13.277
5 0.412 0.554 0.752 0.831 1.145 1.610 9.236 11.070 12.832 13.388 15.086
6 0.676 0.872 1.134 1.237 1.635 2.204 10.645 12.592 14.449 15.033 16.812
7 0.989 1.239 1.564 1.690 2.167 2.833 12.017 14.067 16.013 16.622 18.475
8 1.344 1.647 2.032 2.180 2.733 3.490 13.362 15.507 17.535 18.168 20.090
9 1.735 2.088 2.532 2.700 3.325 4.168 14.684 16.919 19.023 19.679 21.666
10 2.156 2.558 3.059 3.247 3.940 4.865 15.987 18.307 20.483 21.161 23.209
11 2.603 3.053 3.609 3.816 4.575 5.578 17.275 19.675 21.920 22.618 24.725
12 3.074 3.571 4.178 4.404 5.226 6.304 18.549 21.026 23.337 24.054 26.217
13 3.565 4.107 4.765 5.009 5.892 7.041 19.812 22.362 24.736 25.471 27.688
14 4.075 4.660 5.368 5.629 6.571 7.790 21.064 23.685 26.119 26.873 29.141
15 4.601 5.229 5.985 6.262 7.261 8.547 22.307 24.996 27.488 28.259 30.578
16 5.142 5.812 6.614 6.908 7.962 9.312 23.542 26.296 28.845 29.633 32.000
17 5.697 6.408 7.255 7.564 8.672 10.085 24.769 27.587 30.191 30.995 33.409
18 6.265 7.015 7.906 8.231 9.390 10.865 25.989 28.869 31.526 32.346 34.805
19 6.844 7.633 8.567 8.907 10.117 11.651 27.204 30.144 32.852 33.687 36.191
20 7.434 8.260 9.237 9.591 10.851 12.443 28.412 31.410 34.170 35.020 37.566
21 8.034 8.897 9.915 10.283 11.591 13.240 29.615 32.671 35.479 36.343 38.932
22 8.643 9.542 10.600 10.982 12.338 14.041 30.813 33.924 36.781 37.659 40.289
23 9.260 10.196 11.293 11.689 13.091 14.848 32.007 35.172 38.076 38.968 41.638
24 9.886 10.856 11.992 12.401 13.848 15.659 33.196 36.415 39.364 40.270 42.980
25 10.520 11.524 12.697 13.120 14.611 16.473 34.382 37.652 40.646 41.566 44.314
26 11.160 12.198 13.409 13.844 15.379 17.292 35.563 38.885 41.923 42.856 45.642
27 11.808 12.878 14.125 14.573 16.151 18.114 36.741 40.113 43.195 44.140 46.963
28 12.461 13.565 14.847 15.308 16.928 18.939 37.916 41.337 44.461 45.419 48.278
29 13.121 14.256 15.574 16.047 17.708 19.768 39.087 42.557 45.722 46.693 49.588
30 13.787 14.953 16.306 16.791 18.493 20.599 40.256 43.773 46.979 47.962 50.892
n > 30 ⇒ χ α2 ,n =
1
2
(
zα + 2n − 1
2
)

Tabla 3: Distribución t de Student tn.
α = P(tn > tα;n)
α
0 tα;n
α 0.40 0.3 0.2 0.1 0.05 0.025 0.01 0.005 0.001 0.0005
n
1 0.325 0.727 1.376 3.078 6.314 12.706 31.821 63.656 318.289 636.578
2 0.289 0.617 1.061 1.886 2.920 4.303 6.965 9.925 22.328 31.600
3 0.277 0.584 0.978 1.638 2.353 3.182 4.541 5.841 10.214 12.924
4 0.271 0.569 0.941 1.533 2.132 2.776 3.747 4.604 7.173 8.610
5 0.267 0.559 0.920 1.476 2.015 2.571 3.365 4.032 5.894 6.869
6 0.265 0.553 0.906 1.440 1.943 2.447 3.143 3.707 5.208 5.959
7 0.263 0.549 0.896 1.415 1.895 2.365 2.998 3.499 4.785 5.408
8 0.262 0.546 0.889 1.397 1.860 2.306 2.896 3.355 4.501 5.041
9 0.261 0.543 0.883 1.383 1.833 2.262 2.821 3.250 4.297 4.781
10 0.260 0.542 0.879 1.372 1.812 2.228 2.764 3.169 4.144 4.587
11 0.260 0.540 0.876 1.363 1.796 2.201 2.718 3.106 4.025 4.437
12 0.259 0.539 0.873 1.356 1.782 2.179 2.681 3.055 3.930 4.318
13 0.259 0.538 0.870 1.350 1.771 2.160 2.650 3.012 3.852 4.221
14 0.258 0.537 0.868 1.345 1.761 2.145 2.624 2.977 3.787 4.140
15 0.258 0.536 0.866 1.341 1.753 2.131 2.602 2.947 3.733 4.073
16 0.258 0.535 0.865 1.337 1.746 2.120 2.583 2.921 3.686 4.015
17 0.257 0.534 0.863 1.333 1.740 2.110 2.567 2.898 3.646 3.965
18 0.257 0.534 0.862 1.330 1.734 2.101 2.552 2.878 3.610 3.922
19 0.257 0.533 0.861 1.328 1.729 2.093 2.539 2.861 3.579 3.883
20 0.257 0.533 0.860 1.325 1.725 2.086 2.528 2.845 3.552 3.850
21 0.257 0.532 0.859 1.323 1.721 2.080 2.518 2.831 3.527 3.819
22 0.256 0.532 0.858 1.321 1.717 2.074 2.508 2.819 3.505 3.792
23 0.256 0.532 0.858 1.319 1.714 2.069 2.500 2.807 3.485 3.768
24 0.256 0.531 0.857 1.318 1.711 2.064 2.492 2.797 3.467 3.745
25 0.256 0.531 0.856 1.316 1.708 2.060 2.485 2.787 3.450 3.725
26 0.256 0.531 0.856 1.315 1.706 2.056 2.479 2.779 3.435 3.707
27 0.256 0.531 0.855 1.314 1.703 2.052 2.473 2.771 3.421 3.689
28 0.256 0.530 0.855 1.313 1.701 2.048 2.467 2.763 3.408 3.674
29 0.256 0.530 0.854 1.311 1.699 2.045 2.462 2.756 3.396 3.660
30 0.256 0.530 0.854 1.310 1.697 2.042 2.457 2.750 3.385 3.646
40 0.255 0.529 0.851 1.303 1.684 2.021 2.423 2.704 3.307 3.551
50 0.255 0.528 0.849 1.299 1.676 2.009 2.403 2.678 3.261 3.496
60 0.254 0.527 0.848 1.296 1.671 2.000 2.390 2.660 3.232 3.460
80 0.254 0.526 0.846 1.292 1.664 1.990 2.374 2.639 3.195 3.416
100 0.254 0.526 0.845 1.290 1.660 1.984 2.364 2.626 3.174 3.390
200 0.254 0.525 0.843 1.286 1.653 1.972 2.345 2.601 3.131 3.340
500 0.253 0.525 0.842 1.283 1.648 1.965 2.334 2.586 3.107 3.310
∞
0.253 0.524 0.842 1.282 1.645 1.960 2.327 2.576 3.091 3.291

Tabla 4: Distribución F de Fisher-Snedecor Fn1 ,n2 .
n1 1 2 3 4 5 6 7 8 9 10
n2 α
1 0.005 16213 19997 21614 22501 23056 23440 23715 23924 24092 24222
1 0.010 4052.2 4999.3 5403.5 5624.3 5764.0 5859.0 5928.3 5981.0 6022.4 6055.9
1 0.025 647.79 799.48 864.15 899.60 921.83 937.11 948.20 956.64 963.28 968.63
1 0.050 161.45 199.50 215.71 224.58 230.16 233.99 236.77 238.88 240.54 241.88
1 0.100 39.864 49.500 53.593 55.833 57.240 58.204 58.906 59.439 59.857 60.195
2 0.005 198.50 199.01 199.16 199.24 199.30 199.33 199.36 199.38 199.39 199.39
2 0.010 98.502 99.000 99.164 99.251 99.302 99.331 99.357 99.375 99.390 99.397
2 0.025 38.506 39.000 39.166 39.248 39.298 39.331 39.356 39.373 39.387 39.398
2 0.050 18.513 19.000 19.164 19.247 19.296 19.329 19.353 19.371 19.385 19.396
2 0.100 8.526 9.000 9.162 9.243 9.293 9.326 9.349 9.367 9.381 9.392
3 0.005 55.552 49.800 47.468 46.195 45.391 44.838 44.434 44.125 43.881 43.685
3 0.010 34.116 30.816 29.457 28.710 28.237 27.911 27.671 27.489 27.345 27.228
3 0.025 17.443 16.044 15.439 15.101 14.885 14.735 14.624 14.540 14.473 14.419
3 0.050 10.128 9.552 9.277 9.117 9.013 8.941 8.887 8.845 8.812 8.785
3 0.100 5.538 5.462 5.391 5.343 5.309 5.285 5.266 5.252 5.240 5.230
4 0.005 31.332 26.284 24.260 23.154 22.456 21.975 21.622 21.352 21.138 20.967
4 0.010 21.198 18.000 16.694 15.977 15.522 15.207 14.976 14.799 14.659 14.546
4 0.025 12.218 10.649 9.979 9.604 9.364 9.197 9.074 8.980 8.905 8.844
4 0.050 7.709 6.944 6.591 6.388 6.256 6.163 6.094 6.041 5.999 5.964
4 0.100 4.545 4.325 4.191 4.107 4.051 4.010 3.979 3.955 3.936 3.920
5 0.005 22.785 18.314 16.530 15.556 14.939 14.513 14.200 13.961 13.772 13.618
5 0.010 16.258 13.274 12.060 11.392 10.967 10.672 10.456 10.289 10.158 10.051
5 0.025 10.007 8.434 7.764 7.388 7.146 6.978 6.853 6.757 6.681 6.619
5 0.050 6.608 5.786 5.409 5.192 5.050 4.950 4.876 4.818 4.772 4.735
5 0.100 4.060 3.780 3.619 3.520 3.453 3.405 3.368 3.339 3.316 3.297
6 0.005 18.635 14.544 12.917 12.028 11.464 11.073 10.786 10.566 10.391 10.250
6 0.010 13.745 10.925 9.780 9.148 8.746 8.466 8.260 8.102 7.976 7.874
6 0.025 8.813 7.260 6.599 6.227 5.988 5.820 5.695 5.600 5.523 5.461
6 0.050 5.987 5.143 4.757 4.534 4.387 4.284 4.207 4.147 4.099 4.060
6 0.100 3.776 3.463 3.289 3.181 3.108 3.055 3.014 2.983 2.958 2.937
7 0.005 16.235 12.404 10.883 10.050 9.522 9.155 8.885 8.678 8.514 8.380
7 0.010 12.246 9.547 8.451 7.847 7.460 7.191 6.993 6.840 6.719 6.620
7 0.025 8.073 6.542 5.890 5.523 5.285 5.119 4.995 4.899 4.823 4.761
7 0.050 5.591 4.737 4.347 4.120 3.972 3.866 3.787 3.726 3.677 3.637
7 0.100 3.589 3.257 3.074 2.961 2.883 2.827 2.785 2.752 2.725 2.703
8 0.005 14.688 11.043 9.597 8.805 8.302 7.952 7.694 7.496 7.339 7.211
8 0.010 11.259 8.649 7.591 7.006 6.632 6.371 6.178 6.029 5.911 5.814
8 0.025 7.571 6.059 5.416 5.053 4.817 4.652 4.529 4.433 4.357 4.295
8 0.050 5.318 4.459 4.066 3.838 3.688 3.581 3.500 3.438 3.388 3.347
8 0.100 3.458 3.113 2.924 2.806 2.726 2.668 2.624 2.589 2.561 2.538
9 0.005 13.614 10.107 8.717 7.956 7.471 7.134 6.885 6.693 6.541 6.417
9 0.010 10.562 8.022 6.992 6.422 6.057 5.802 5.613 5.467 5.351 5.257
9 0.025 7.209 5.715 5.078 4.718 4.484 4.320 4.197 4.102 4.026 3.964
9 0.050 5.117 4.256 3.863 3.633 3.482 3.374 3.293 3.230 3.179 3.137
9 0.100 3.360 3.006 2.813 2.693 2.611 2.551 2.505 2.469 2.440 2.416

Tabla 4: Distribución F de Fisher-Snedecor Fn1 ,n2 (Continuación).
n1 11 12 15 20 24 30 40 60 120 ∞
n2 α
1 0.005 24334 24427 24632 24837 24937 25041 25146 25254 25358 25466
1 0.010 6083.4 6106.7 6157.0 6208.7 6234.3 6260.4 6286.4 6313.0 6339.5 6365.6
1 0.025 973.03 976.72 984.87 993.08 997.27 1001.4 1005.6 1009.8 1014.0 1018.3
1 0.050 242.98 243.90 245.95 248.02 249.05 250.10 251.14 252.20 253.25 254.32
1 0.100 60.473 60.705 61.220 61.740 62.002 62.265 62.529 62.794 63.061 63.328
2 0.005 199.42 199.42 199.43 199.45 199.45 199.48 199.48 199.48 199.49 199.51
2 0.010 99.408 99.419 99.433 99.448 99.455 99.466 99.477 99.484 99.491 99.499
2 0.025 39.407 39.415 39.431 39.448 39.457 39.465 39.473 39.481 39.489 39.498
2 0.050 19.405 19.412 19.429 19.446 19.454 19.463 19.471 19.479 19.487 19.496
2 0.100 9.401 9.408 9.425 9.441 9.450 9.458 9.466 9.475 9.483 9.491
3 0.005 43.525 43.387 43.085 42.779 42.623 42.466 42.310 42.150 41.990 41.829
3 0.010 27.132 27.052 26.872 26.690 26.597 26.504 26.411 26.316 26.221 26.125
3 0.025 14.374 14.337 14.253 14.167 14.124 14.081 14.036 13.992 13.947 13.902
3 0.050 8.763 8.745 8.703 8.660 8.638 8.617 8.594 8.572 8.549 8.526
3 0.100 5.222 5.216 5.200 5.184 5.176 5.168 5.160 5.151 5.143 5.134
4 0.005 20.824 20.705 20.438 20.167 20.030 19.892 19.751 19.611 19.469 19.325
4 0.010 14.452 14.374 14.198 14.019 13.929 13.838 13.745 13.652 13.558 13.463
4 0.025 8.794 8.751 8.657 8.560 8.511 8.461 8.411 8.360 8.309 8.257
4 0.050 5.936 5.912 5.858 5.803 5.774 5.746 5.717 5.688 5.658 5.628
4 0.100 3.907 3.896 3.870 3.844 3.831 3.817 3.804 3.790 3.775 3.761
5 0.005 13.491 13.385 13.146 12.903 12.780 12.656 12.530 12.402 12.274 12.144
5 0.010 9.963 9.888 9.722 9.553 9.466 9.379 9.291 9.202 9.112 9.020
5 0.025 6.568 6.525 6.428 6.329 6.278 6.227 6.175 6.123 6.069 6.015
5 0.050 4.704 4.678 4.619 4.558 4.527 4.496 4.464 4.431 4.398 4.365
5 0.100 3.282 3.268 3.238 3.207 3.191 3.174 3.157 3.140 3.123 3.105
6 0.005 10.133 10.034 9.814 9.589 9.474 9.358 9.241 9.122 9.001 8.879
6 0.010 7.790 7.718 7.559 7.396 7.313 7.229 7.143 7.057 6.969 6.880
6 0.025 5.410 5.366 5.269 5.168 5.117 5.065 5.012 4.959 4.904 4.849
6 0.050 4.027 4.000 3.938 3.874 3.841 3.808 3.774 3.740 3.705 3.669
6 0.100 2.920 2.905 2.871 2.836 2.818 2.800 2.781 2.762 2.742 2.722
7 0.005 8.270 8.176 7.968 7.754 7.645 7.534 7.422 7.309 7.193 7.076
7 0.010 6.538 6.469 6.314 6.155 6.074 5.992 5.908 5.824 5.737 5.650
7 0.025 4.709 4.666 4.568 4.467 4.415 4.362 4.309 4.254 4.199 4.142
7 0.050 3.603 3.575 3.511 3.445 3.410 3.376 3.340 3.304 3.267 3.230
7 0.100 2.684 2.668 2.632 2.595 2.575 2.555 2.535 2.514 2.493 2.471
8 0.005 7.105 7.015 6.814 6.608 6.503 6.396 6.288 6.177 6.065 5.951
8 0.010 5.734 5.667 5.515 5.359 5.279 5.198 5.116 5.032 4.946 4.859
8 0.025 4.243 4.200 4.101 3.999 3.947 3.894 3.840 3.784 3.728 3.670
8 0.050 3.313 3.284 3.218 3.150 3.115 3.079 3.043 3.005 2.967 2.928
8 0.100 2.519 2.502 2.464 2.425 2.404 2.383 2.361 2.339 2.316 2.293
9 0.005 6.314 6.227 6.032 5.832 5.729 5.625 5.519 5.410 5.300 5.188
9 0.010 5.178 5.111 4.962 4.808 4.729 4.649 4.567 4.483 4.398 4.311
9 0.025 3.912 3.868 3.769 3.667 3.614 3.560 3.505 3.449 3.392 3.333
9 0.050 3.102 3.073 3.006 2.936 2.900 2.864 2.826 2.787 2.748 2.707
9 0.100 2.396 2.379 2.340 2.298 2.277 2.255 2.232 2.208 2.184 2.159

n1 1 2 3 4 5 6 7 8 9 10
n2 α
10 0.005 12.827 9.427 8.081 7.343 6.872 6.545 6.303 6.116 5.968 5.847
10 0.010 10.044 7.559 6.552 5.994 5.636 5.386 5.200 5.057 4.942 4.849
10 0.025 6.937 5.456 4.826 4.468 4.236 4.072 3.950 3.855 3.779 3.717
10 0.050 4.965 4.103 3.708 3.478 3.326 3.217 3.135 3.072 3.020 2.978
10 0.100 3.285 2.924 2.728 2.605 2.522 2.461 2.414 2.377 2.347 2.323
11 0.005 12.226 8.912 7.600 6.881 6.422 6.102 5.865 5.682 5.537 5.418
11 0.010 9.646 7.206 6.217 5.668 5.316 5.069 4.886 4.744 4.632 4.539
11 0.025 6.724 5.256 4.630 4.275 4.044 3.881 3.759 3.664 3.588 3.526
11 0.050 4.844 3.982 3.587 3.357 3.204 3.095 3.012 2.948 2.896 2.854
11 0.100 3.225 2.860 2.660 2.536 2.451 2.389 2.342 2.304 2.274 2.248
12 0.005 11.754 8.510 7.226 6.521 6.071 5.757 5.524 5.345 5.202 5.085
12 0.010 9.330 6.927 5.953 5.412 5.064 4.821 4.640 4.499 4.388 4.296
12 0.025 6.554 5.096 4.474 4.121 3.891 3.728 3.607 3.512 3.436 3.374
12 0.050 4.747 3.885 3.490 3.259 3.106 2.996 2.913 2.849 2.796 2.753
12 0.100 3.177 2.807 2.606 2.480 2.394 2.331 2.283 2.245 2.214 2.188
13 0.005 11.374 8.186 6.926 6.233 5.791 5.482 5.253 5.076 4.935 4.820
13 0.010 9.074 6.701 5.739 5.205 4.862 4.620 4.441 4.302 4.191 4.100
13 0.025 6.414 4.965 4.347 3.996 3.767 3.604 3.483 3.388 3.312 3.250
13 0.050 4.667 3.806 3.411 3.179 3.025 2.915 2.832 2.767 2.714 2.671
13 0.100 3.136 2.763 2.560 2.434 2.347 2.283 2.234 2.195 2.164 2.138
14 0.005 11.060 7.922 6.680 5.998 5.562 5.257 5.031 4.857 4.717 4.603
14 0.010 8.862 6.515 5.564 5.035 4.695 4.456 4.278 4.140 4.030 3.939
14 0.025 6.298 4.857 4.242 3.892 3.663 3.501 3.380 3.285 3.209 3.147
14 0.050 4.600 3.739 3.344 3.112 2.958 2.848 2.764 2.699 2.646 2.602
14 0.100 3.102 2.726 2.522 2.395 2.307 2.243 2.193 2.154 2.122 2.095
15 0.005 10.798 7.701 6.476 5.803 5.372 5.071 4.847 4.674 4.536 4.424
15 0.010 8.683 6.359 5.417 4.893 4.556 4.318 4.142 4.004 3.895 3.805
15 0.025 6.200 4.765 4.153 3.804 3.576 3.415 3.293 3.199 3.123 3.060
15 0.050 4.543 3.682 3.287 3.056 2.901 2.790 2.707 2.641 2.588 2.544
15 0.100 3.073 2.695 2.490 2.361 2.273 2.208 2.158 2.119 2.086 2.059
16 0.005 10.576 7.514 6.303 5.638 5.212 4.913 4.692 4.521 4.384 4.272
16 0.010 8.531 6.226 5.292 4.773 4.437 4.202 4.026 3.890 3.780 3.691
16 0.025 6.115 4.687 4.077 3.729 3.502 3.341 3.219 3.125 3.049 2.986
16 0.050 4.494 3.634 3.239 3.007 2.852 2.741 2.657 2.591 2.538 2.494
16 0.100 3.048 2.668 2.462 2.333 2.244 2.178 2.128 2.088 2.055 2.028
17 0.005 10.384 7.354 6.156 5.497 5.075 4.779 4.559 4.389 4.254 4.142
17 0.010 8.400 6.112 5.185 4.669 4.336 4.101 3.927 3.791 3.682 3.593
17 0.025 6.042 4.619 4.011 3.665 3.438 3.277 3.156 3.061 2.985 2.922
17 0.050 4.451 3.592 3.197 2.965 2.810 2.699 2.614 2.548 2.494 2.450
17 0.100 3.026 2.645 2.437 2.308 2.218 2.152 2.102 2.061 2.028 2.001
18 0.005 10.218 7.215 6.028 5.375 4.956 4.663 4.445 4.276 4.141 4.030
18 0.010 8.285 6.013 5.092 4.579 4.248 4.015 3.841 3.705 3.597 3.508
18 0.025 5.978 4.560 3.954 3.608 3.382 3.221 3.100 3.005 2.929 2.866
18 0.050 4.414 3.555 3.160 2.928 2.773 2.661 2.577 2.510 2.456 2.412
18 0.100 3.007 2.624 2.416 2.286 2.196 2.130 2.079 2.038 2.005 1.977

n1 11 12 15 20 24 30 40 60 120 ∞
n2 α
10 0.005 5.746 5.661 5.471 5.274 5.173 5.071 4.966 4.859 4.750 4.639
10 0.010 4.772 4.706 4.558 4.405 4.327 4.247 4.165 4.082 3.996 3.909
10 0.025 3.665 3.621 3.522 3.419 3.365 3.311 3.255 3.198 3.140 3.080
10 0.050 2.943 2.913 2.845 2.774 2.737 2.700 2.661 2.621 2.580 2.538
10 0.100 2.302 2.284 2.244 2.201 2.178 2.155 2.132 2.107 2.082 2.055
11 0.005 5.320 5.236 5.049 4.855 4.756 4.654 4.551 4.445 4.337 4.226
11 0.010 4.462 4.397 4.251 4.099 4.021 3.941 3.860 3.776 3.690 3.603
11 0.025 3.474 3.430 3.330 3.226 3.173 3.118 3.061 3.004 2.944 2.883
11 0.050 2.818 2.788 2.719 2.646 2.609 2.570 2.531 2.490 2.448 2.405
11 0.100 2.227 2.209 2.167 2.123 2.100 2.076 2.052 2.026 2.000 1.972
12 0.005 4.988 4.906 4.721 4.530 4.431 4.331 4.228 4.123 4.015 3.904
12 0.010 4.220 4.155 4.010 3.858 3.780 3.701 3.619 3.535 3.449 3.361
12 0.025 3.321 3.277 3.177 3.073 3.019 2.963 2.906 2.848 2.787 2.725
12 0.050 2.717 2.687 2.617 2.544 2.505 2.466 2.426 2.384 2.341 2.296
12 0.100 2.166 2.147 2.105 2.060 2.036 2.011 1.986 1.960 1.932 1.904
13 0.005 4.724 4.643 4.460 4.270 4.173 4.073 3.970 3.866 3.758 3.647
13 0.010 4.025 3.960 3.815 3.665 3.587 3.507 3.425 3.341 3.255 3.165
13 0.025 3.197 3.153 3.053 2.948 2.893 2.837 2.780 2.720 2.659 2.596
13 0.050 2.635 2.604 2.533 2.459 2.420 2.380 2.339 2.297 2.252 2.206
13 0.100 2.116 2.097 2.053 2.007 1.983 1.958 1.931 1.904 1.876 1.846
14 0.005 4.508 4.428 4.247 4.059 3.961 3.862 3.760 3.655 3.547 3.436
14 0.010 3.864 3.800 3.656 3.505 3.427 3.348 3.266 3.181 3.094 3.004
14 0.025 3.095 3.050 2.949 2.844 2.789 2.732 2.674 2.614 2.552 2.487
14 0.050 2.565 2.534 2.463 2.388 2.349 2.308 2.266 2.223 2.178 2.131
14 0.100 2.073 2.054 2.010 1.962 1.938 1.912 1.885 1.857 1.828 1.797
15 0.005 4.329 4.250 4.070 3.883 3.786 3.687 3.585 3.480 3.372 3.260
15 0.010 3.730 3.666 3.522 3.372 3.294 3.214 3.132 3.047 2.959 2.869
15 0.025 3.008 2.963 2.862 2.756 2.701 2.644 2.585 2.524 2.461 2.395
15 0.050 2.507 2.475 2.403 2.328 2.288 2.247 2.204 2.160 2.114 2.066
15 0.100 2.037 2.017 1.972 1.924 1.899 1.873 1.845 1.817 1.787 1.755
16 0.005 4.179 4.099 3.920 3.734 3.638 3.539 3.437 3.332 3.224 3.112
16 0.010 3.616 3.553 3.409 3.259 3.181 3.101 3.018 2.933 2.845 2.753
16 0.025 2.934 2.889 2.788 2.681 2.625 2.568 2.509 2.447 2.383 2.316
16 0.050 2.456 2.425 2.352 2.276 2.235 2.194 2.151 2.106 2.059 2.010
16 0.100 2.005 1.985 1.940 1.891 1.866 1.839 1.811 1.782 1.751 1.718
17 0.005 4.050 3.971 3.793 3.607 3.511 3.412 3.311 3.206 3.097 2.984
17 0.010 3.518 3.455 3.312 3.162 3.083 3.003 2.920 2.835 2.746 2.653
17 0.025 2.870 2.825 2.723 2.616 2.560 2.502 2.442 2.380 2.315 2.248
17 0.050 2.413 2.381 2.308 2.230 2.190 2.148 2.104 2.058 2.011 1.960
17 0.100 1.978 1.958 1.912 1.862 1.836 1.809 1.781 1.751 1.719 1.686
18 0.005 3.938 3.860 3.683 3.498 3.402 3.303 3.201 3.096 2.987 2.873
18 0.010 3.434 3.371 3.227 3.077 2.999 2.919 2.835 2.749 2.660 2.566
18 0.025 2.814 2.769 2.667 2.559 2.503 2.445 2.384 2.321 2.256 2.187
18 0.050 2.374 2.342 2.269 2.191 2.150 2.107 2.063 2.017 1.968 1.917
18 0.100 1.954 1.933 1.887 1.837 1.810 1.783 1.754 1.723 1.691 1.657

n1 1 2 3 4 5 6 7 8 9 10
n2 α
19 0.005 10.073 7.093 5.916 5.268 4.853 4.561 4.345 4.177 4.043 3.933
19 0.010 8.185 5.926 5.010 4.500 4.171 3.939 3.765 3.631 3.523 3.434
19 0.025 5.922 4.508 3.903 3.559 3.333 3.172 3.051 2.956 2.880 2.817
19 0.050 4.381 3.522 3.127 2.895 2.740 2.628 2.544 2.477 2.423 2.378
19 0.100 2.990 2.606 2.397 2.266 2.176 2.109 2.058 2.017 1.984 1.956
20 0.005 9.944 6.987 5.818 5.174 4.762 4.472 4.257 4.090 3.956 3.847
20 0.010 8.096 5.849 4.938 4.431 4.103 3.871 3.699 3.564 3.457 3.368
20 0.025 5.871 4.461 3.859 3.515 3.289 3.128 3.007 2.913 2.837 2.774
20 0.050 4.351 3.493 3.098 2.866 2.711 2.599 2.514 2.447 2.393 2.348
20 0.100 2.975 2.589 2.380 2.249 2.158 2.091 2.040 1.999 1.965 1.937
21 0.005 9.829 6.891 5.730 5.091 4.681 4.393 4.179 4.013 3.880 3.771
21 0.010 8.017 5.780 4.874 4.369 4.042 3.812 3.640 3.506 3.398 3.310
21 0.025 5.827 4.420 3.819 3.475 3.250 3.090 2.969 2.874 2.798 2.735
21 0.050 4.325 3.467 3.072 2.840 2.685 2.573 2.488 2.420 2.366 2.321
21 0.100 2.961 2.575 2.365 2.233 2.142 2.075 2.023 1.982 1.948 1.920
22 0.005 9.727 6.806 5.652 5.017 4.609 4.322 4.109 3.944 3.812 3.703
22 0.010 7.945 5.719 4.817 4.313 3.988 3.758 3.587 3.453 3.346 3.258
22 0.025 5.786 4.383 3.783 3.440 3.215 3.055 2.934 2.839 2.763 2.700
22 0.050 4.301 3.443 3.049 2.817 2.661 2.549 2.464 2.397 2.342 2.297
22 0.100 2.949 2.561 2.351 2.219 2.128 2.060 2.008 1.967 1.933 1.904
23 0.005 9.635 6.730 5.582 4.950 4.544 4.259 4.047 3.882 3.750 3.642
23 0.010 7.881 5.664 4.765 4.264 3.939 3.710 3.539 3.406 3.299 3.211
23 0.025 5.750 4.349 3.750 3.408 3.183 3.023 2.902 2.808 2.731 2.668
23 0.050 4.279 3.422 3.028 2.796 2.640 2.528 2.442 2.375 2.320 2.275
23 0.100 2.937 2.549 2.339 2.207 2.115 2.047 1.995 1.953 1.919 1.890
24 0.005 9.551 6.661 5.519 4.890 4.486 4.202 3.991 3.826 3.695 3.587
24 0.010 7.823 5.614 4.718 4.218 3.895 3.667 3.496 3.363 3.256 3.168
24 0.025 5.717 4.319 3.721 3.379 3.155 2.995 2.874 2.779 2.703 2.640
24 0.050 4.260 3.403 3.009 2.776 2.621 2.508 2.423 2.355 2.300 2.255
24 0.100 2.927 2.538 2.327 2.195 2.103 2.035 1.983 1.941 1.906 1.877
25 0.005 9.475 6.598 5.462 4.835 4.433 4.150 3.939 3.776 3.645 3.537
25 0.010 7.770 5.568 4.675 4.177 3.855 3.627 3.457 3.324 3.217 3.129
25 0.025 5.686 4.291 3.694 3.353 3.129 2.969 2.848 2.753 2.677 2.613
25 0.050 4.242 3.385 2.991 2.759 2.603 2.490 2.405 2.337 2.282 2.236
25 0.100 2.918 2.528 2.317 2.184 2.092 2.024 1.971 1.929 1.895 1.866
26 0.005 9.406 6.541 5.409 4.785 4.384 4.103 3.893 3.730 3.599 3.492
26 0.010 7.721 5.526 4.637 4.140 3.818 3.591 3.421 3.288 3.182 3.094
26 0.025 5.659 4.265 3.670 3.329 3.105 2.945 2.824 2.729 2.653 2.590
26 0.050 4.225 3.369 2.975 2.743 2.587 2.474 2.388 2.321 2.265 2.220
26 0.100 2.909 2.519 2.307 2.174 2.082 2.014 1.961 1.919 1.884 1.855
27 0.005 9.342 6.489 5.361 4.740 4.340 4.059 3.850 3.687 3.557 3.450
27 0.010 7.677 5.488 4.601 4.106 3.785 3.558 3.388 3.256 3.149 3.062
27 0.025 5.633 4.242 3.647 3.307 3.083 2.923 2.802 2.707 2.631 2.568
27 0.050 4.210 3.354 2.960 2.728 2.572 2.459 2.373 2.305 2.250 2.204
27 0.100 2.901 2.511 2.299 2.165 2.073 2.005 1.952 1.909 1.874 1.845

n1 11 12 15 20 24 30 40 60 120 ∞
n2 α
19 0.005 3.841 3.763 3.587 3.402 3.306 3.208 3.106 3.000 2.891 2.776
19 0.010 3.360 3.297 3.153 3.003 2.925 2.844 2.761 2.674 2.584 2.489
19 0.025 2.765 2.720 2.617 2.509 2.452 2.394 2.333 2.270 2.203 2.133
19 0.050 2.340 2.308 2.234 2.155 2.114 2.071 2.026 1.980 1.930 1.878
19 0.100 1.932 1.912 1.865 1.814 1.787 1.759 1.730 1.699 1.666 1.631
20 0.005 3.756 3.678 3.502 3.318 3.222 3.123 3.022 2.916 2.806 2.691
20 0.010 3.294 3.231 3.088 2.938 2.859 2.778 2.695 2.608 2.517 2.421
20 0.025 2.721 2.676 2.573 2.464 2.408 2.349 2.287 2.223 2.156 2.085
20 0.050 2.310 2.278 2.203 2.124 2.082 2.039 1.994 1.946 1.896 1.843
20 0.100 1.913 1.892 1.845 1.794 1.767 1.738 1.708 1.677 1.643 1.607
21 0.005 3.680 3.602 3.427 3.243 3.147 3.049 2.947 2.841 2.730 2.614
21 0.010 3.236 3.173 3.030 2.880 2.801 2.720 2.636 2.548 2.457 2.360
21 0.025 2.682 2.637 2.534 2.425 2.368 2.308 2.246 2.182 2.114 2.042
21 0.050 2.283 2.250 2.176 2.096 2.054 2.010 1.965 1.916 1.866 1.812
21 0.100 1.896 1.875 1.827 1.776 1.748 1.719 1.689 1.657 1.623 1.586
22 0.005 3.612 3.535 3.360 3.176 3.081 2.982 2.880 2.774 2.663 2.546
22 0.010 3.184 3.121 2.978 2.827 2.749 2.667 2.583 2.495 2.403 2.306
22 0.025 2.647 2.602 2.498 2.389 2.332 2.272 2.210 2.145 2.076 2.003
22 0.050 2.259 2.226 2.151 2.071 2.028 1.984 1.938 1.889 1.838 1.783
22 0.100 1.880 1.859 1.811 1.759 1.731 1.702 1.671 1.639 1.604 1.567
23 0.005 3.551 3.474 3.300 3.116 3.021 2.922 2.820 2.713 2.602 2.484
23 0.010 3.137 3.074 2.931 2.780 2.702 2.620 2.536 2.447 2.354 2.256
23 0.025 2.615 2.570 2.466 2.357 2.299 2.239 2.176 2.111 2.041 1.968
23 0.050 2.236 2.204 2.128 2.048 2.005 1.961 1.914 1.865 1.813 1.757
23 0.100 1.866 1.845 1.796 1.744 1.716 1.686 1.655 1.622 1.587 1.549
24 0.005 3.497 3.420 3.246 3.062 2.967 2.868 2.765 2.658 2.546 2.428
24 0.010 3.094 3.032 2.889 2.738 2.659 2.577 2.492 2.403 2.310 2.211
24 0.025 2.586 2.541 2.437 2.327 2.269 2.209 2.146 2.080 2.010 1.935
24 0.050 2.216 2.183 2.108 2.027 1.984 1.939 1.892 1.842 1.790 1.733
24 0.100 1.853 1.832 1.783 1.730 1.702 1.672 1.641 1.607 1.571 1.533
25 0.005 3.447 3.370 3.196 3.013 2.918 2.819 2.716 2.609 2.496 2.377
25 0.010 3.056 2.993 2.850 2.699 2.620 2.538 2.453 2.364 2.270 2.170
25 0.025 2.560 2.515 2.411 2.300 2.242 2.182 2.118 2.052 1.981 1.906
25 0.050 2.198 2.165 2.089 2.007 1.964 1.919 1.872 1.822 1.768 1.711
25 0.100 1.841 1.820 1.771 1.718 1.689 1.659 1.627 1.593 1.557 1.518
26 0.005 3.402 3.325 3.151 2.968 2.873 2.774 2.671 2.563 2.450 2.330
26 0.010 3.021 2.958 2.815 2.664 2.585 2.503 2.417 2.327 2.233 2.132
26 0.025 2.536 2.491 2.387 2.276 2.217 2.157 2.093 2.026 1.954 1.878
26 0.050 2.181 2.148 2.072 1.990 1.946 1.901 1.853 1.803 1.749 1.691
26 0.100 1.830 1.809 1.760 1.706 1.677 1.647 1.615 1.581 1.544 1.504
27 0.005 3.360 3.284 3.110 2.927 2.832 2.733 2.630 2.522 2.408 2.287
27 0.010 2.988 2.926 2.783 2.632 2.552 2.470 2.384 2.294 2.198 2.097
27 0.025 2.514 2.469 2.364 2.253 2.195 2.133 2.069 2.002 1.930 1.853
27 0.050 2.166 2.132 2.056 1.974 1.930 1.884 1.836 1.785 1.731 1.672
27 0.100 1.820 1.799 1.749 1.695 1.666 1.636 1.603 1.569 1.531 1.491

n1 1 2 3 4 5 6 7 8 9 10
n2 α
28 0.005 9.284 6.440 5.317 4.698 4.300 4.020 3.811 3.649 3.519 3.412
28 0.010 7.636 5.453 4.568 4.074 3.754 3.528 3.358 3.226 3.120 3.032
28 0.025 5.610 4.221 3.626 3.286 3.063 2.903 2.782 2.687 2.611 2.547
28 0.050 4.196 3.340 2.947 2.714 2.558 2.445 2.359 2.291 2.236 2.190
28 0.100 2.894 2.503 2.291 2.157 2.064 1.996 1.943 1.900 1.865 1.836
29 0.005 9.230 6.396 5.276 4.659 4.262 3.983 3.775 3.613 3.483 3.376
29 0.010 7.598 5.420 4.538 4.045 3.725 3.499 3.330 3.198 3.092 3.005
29 0.025 5.588 4.201 3.607 3.267 3.044 2.884 2.763 2.669 2.592 2.529
29 0.050 4.183 3.328 2.934 2.701 2.545 2.432 2.346 2.278 2.223 2.177
29 0.100 2.887 2.495 2.283 2.149 2.057 1.988 1.935 1.892 1.857 1.827
30 0.005 9.180 6.355 5.239 4.623 4.228 3.949 3.742 3.580 3.451 3.344
30 0.010 7.562 5.390 4.510 4.018 3.699 3.473 3.305 3.173 3.067 2.979
30 0.025 5.568 4.182 3.589 3.250 3.026 2.867 2.746 2.651 2.575 2.511
30 0.050 4.171 3.316 2.922 2.690 2.534 2.421 2.334 2.266 2.211 2.165
30 0.100 2.881 2.489 2.276 2.142 2.049 1.980 1.927 1.884 1.849 1.819
40 0.005 8.828 6.066 4.976 4.374 3.986 3.713 3.509 3.350 3.222 3.117
40 0.010 7.314 5.178 4.313 3.828 3.514 3.291 3.124 2.993 2.888 2.801
40 0.025 5.424 4.051 3.463 3.126 2.904 2.744 2.624 2.529 2.452 2.388
40 0.050 4.085 3.232 2.839 2.606 2.449 2.336 2.249 2.180 2.124 2.077
40 0.100 2.835 2.440 2.226 2.091 1.997 1.927 1.873 1.829 1.793 1.763
60 0.005 8.495 5.795 4.729 4.140 3.760 3.492 3.291 3.134 3.008 2.904
60 0.010 7.077 4.977 4.126 3.649 3.339 3.119 2.953 2.823 2.718 2.632
60 0.025 5.286 3.925 3.343 3.008 2.786 2.627 2.507 2.412 2.334 2.270
60 0.050 4.001 3.150 2.758 2.525 2.368 2.254 2.167 2.097 2.040 1.993
60 0.100 2.791 2.393 2.177 2.041 1.946 1.875 1.819 1.775 1.738 1.707
120 0.005 8.179 5.539 4.497 3.921 3.548 3.285 3.087 2.933 2.808 2.705
120 0.010 6.851 4.787 3.949 3.480 3.174 2.956 2.792 2.663 2.559 2.472
120 0.025 5.152 3.805 3.227 2.894 2.674 2.515 2.395 2.299 2.222 2.157
120 0.050 3.920 3.072 2.680 2.447 2.290 2.175 2.087 2.016 1.959 1.910
120 0.100 2.748 2.347 2.130 1.992 1.896 1.824 1.767 1.722 1.684 1.652
∞ 0.005 7.880 5.299 4.280 3.715 3.350 3.091 2.897 2.745 2.621 2.519
∞ 0.010 6.635 4.605 3.782 3.319 3.017 2.802 2.640 2.511 2.408 2.321
∞ 0.025 5.024 3.689 3.116 2.786 2.567 2.408 2.288 2.192 2.114 2.048
∞ 0.050 3.842 2.996 2.605 2.372 2.214 2.099 2.010 1.939 1.880 1.831
∞ 0.100 2.706 2.303 2.084 1.945 1.847 1.774 1.717 1.670 1.632 1.599

n1 11 12 15 20 24 30 40 60 120 ∞
n2 α
28 0.005 3.322 3.246 3.073 2.890 2.794 2.695 2.592 2.483 2.369 2.247
28 0.010 2.959 2.896 2.753 2.602 2.522 2.440 2.354 2.263 2.167 2.064
28 0.025 2.494 2.448 2.344 2.232 2.174 2.112 2.048 1.980 1.907 1.829
28 0.050 2.151 2.118 2.041 1.959 1.915 1.869 1.820 1.769 1.714 1.654
28 0.100 1.811 1.790 1.740 1.685 1.656 1.625 1.592 1.558 1.520 1.478
29 0.005 3.287 3.211 3.038 2.855 2.759 2.660 2.557 2.448 2.333 2.210
29 0.010 2.931 2.868 2.726 2.574 2.495 2.412 2.325 2.234 2.138 2.034
29 0.025 2.475 2.430 2.325 2.213 2.154 2.092 2.028 1.959 1.886 1.807
29 0.050 2.138 2.104 2.027 1.945 1.901 1.854 1.806 1.754 1.698 1.638
29 0.100 1.802 1.781 1.731 1.676 1.647 1.616 1.583 1.547 1.509 1.467
30 0.005 3.255 3.179 3.006 2.823 2.727 2.628 2.524 2.415 2.300 2.176
30 0.010 2.906 2.843 2.700 2.549 2.469 2.386 2.299 2.208 2.111 2.006
30 0.025 2.458 2.412 2.307 2.195 2.136 2.074 2.009 1.940 1.866 1.787
30 0.050 2.126 2.092 2.015 1.932 1.887 1.841 1.792 1.740 1.683 1.622
30 0.100 1.794 1.773 1.722 1.667 1.638 1.606 1.573 1.538 1.499 1.456
40 0.005 3.028 2.953 2.781 2.598 2.502 2.401 2.296 2.184 2.064 1.932
40 0.010 2.727 2.665 2.522 2.369 2.288 2.203 2.114 2.019 1.917 1.805
40 0.025 2.334 2.288 2.182 2.068 2.007 1.943 1.875 1.803 1.724 1.637
40 0.050 2.038 2.003 1.924 1.839 1.793 1.744 1.693 1.637 1.577 1.509
40 0.100 1.737 1.715 1.662 1.605 1.574 1.541 1.506 1.467 1.425 1.377
60 0.005 2.817 2.742 2.570 2.387 2.290 2.187 2.079 1.962 1.834 1.689
60 0.010 2.559 2.496 2.352 2.198 2.115 2.028 1.936 1.836 1.726 1.601
60 0.025 2.216 2.169 2.061 1.944 1.882 1.815 1.744 1.667 1.581 1.482
60 0.050 1.952 1.917 1.836 1.748 1.700 1.649 1.594 1.534 1.467 1.389
60 0.100 1.680 1.657 1.603 1.543 1.511 1.476 1.437 1.395 1.348 1.292
120 0.005 2.618 2.544 2.373 2.188 2.089 1.984 1.871 1.747 1.606 1.431
120 0.010 2.399 2.336 2.191 2.035 1.950 1.860 1.763 1.656 1.533 1.381
120 0.025 2.102 2.055 1.945 1.825 1.760 1.690 1.614 1.530 1.433 1.311
120 0.050 1.869 1.834 1.750 1.659 1.608 1.554 1.495 1.429 1.352 1.254
120 0.100 1.625 1.601 1.545 1.482 1.447 1.409 1.368 1.320 1.265 1.193
∞ 0.005 2.433 2.359 2.187 2.000 1.898 1.789 1.669 1.533 1.364 1.016
∞ 0.010 2.248 2.185 2.039 1.878 1.791 1.697 1.592 1.473 1.325 1.015
∞ 0.025 1.993 1.945 1.833 1.709 1.640 1.566 1.484 1.388 1.269 1.012
∞ 0.050 1.789 1.752 1.666 1.571 1.517 1.459 1.394 1.318 1.222 1.010
∞ 0.100 1.571 1.546 1.487 1.421 1.383 1.342 1.295 1.240 1.169 1.008

Curso Basico de Bioestadistica en SPSS para Clinicos - 15

Загружено:

Сведения о документе

Исходное описание:

Оригинальное название

Авторское право

Доступные форматы

Поделиться этим документом

Поделиться или встроить документ

Параметры публикации

Этот документ был вам полезен?

Это неприемлемый материал?

Авторское право:

Доступные форматы

Curso Basico de Bioestadistica en SPSS para Clinicos - 15

Загружено:

Авторское право:

Доступные форматы

CURSO BÁSICO DE BIOESTADÍSTICA EN SPSS PARA

Amaia Bilbao González

Tema 1: Introducción al SPSS 1

Tema 2: Ficheros de datos 8

Tema 3: Funciones del editor de datos 18

Tema 4: Procedimientos descriptivos básicos 30

Tema 5: Inferencia para una muestra 43

Tema 6: Comparación de dos medias independientes 54

Tema 7: Análisis de la varianza 63

Tema 8: Regresión lineal y correlación 76

Tema 9: Análisis de datos categóricos 103

Tema 10: Pruebas de bondad de ajuste 128

Tema 11: Estadística no paramétrica 138

Apéndice: Tablas 148

Milton J. S.. Estadística para Biología y Ciencias de la Salud. 3ª edición. McGraw-

Tema 1: INTRODUCCIÓN AL SPSS

El elemento de menú Temas proporciona acceso a las pestañas Contenido, Índice y

• La pestaña Índice dispone de un índice que permite buscar temas específicos

Botón Ayuda en los cuadros de diálogo. La mayoría de los cuadros de diálogo

También en muchos cuadros de diálogo se puede encontrar ayuda sobre aspectos

Si las variables son de tipo numérico y queremos analizar solo 2 variables.

Si no queremos gráficos sino resultados numéricos.

Tema 2: FICHEROS DE DATOS

2.2. ABRIR UN FICHERO DE DATOS

Vista Datos Vista Variables

Los ficheros de datos SPSS se identifican con la extensión SAV y se visualizan

Archivo: A partir de aquí podremos, entre otras opciones, abrir y guardar

Gráficos: Lo utilizaremos para crear gráficos como diagramas de barras,

2.3. CREAR UN FICHERO DE DATOS

En cualquiera de ambos casos, debemos recordar que:

Valores que toma la

2.4. ABRIR UN FICHERO DE DATOS DE TIPO TEXTO

Los valores de las variables

Los valores de las variables

2.5. IMPORTAR UN FICHERO DE DATOS

original ( DBASE, Excel, FoxPro, MQIS, MS Access, Texto,…), el fichero que

2.6. UNIR FICHEROS DE DATOS

IND NOMBRE SEXO HOSPITAL

2.6.2. FUNDIR ARCHIVOS CON LOS MISMOS INDIVIDUOS Y VARIABLES

HISTORIA SEXO EDAD NIVEL1 O2 NIVEL2 O2 TEST SEVERIDAD

Tema 3: FUNCIONES DEL EDITOR DE DATOS

3.2. TRANSFORMACIÓN DE DATOS

Existen más de 70 funciones aritméticas, estadísticas, de fecha y hora, de valores

En segundo lugar, seleccionamos nuevamente >Transformar >Calcular de la barra de

Si en el cuadro Variable de destino ponemos el nombre de una variable ya existente, lo

Para ello, abriremos el cuadro de diálogo correspondiente y seleccionaremos las dos

A continuación pulsaremos el botón

Los resultados de este procedimiento se podrán apreciar en el Editor de Datos

Como hemos indicado antes, una aplicación muy útil de la recodificación es la

3.2.3. RECODIFICACIÓN AUTOMÁTICA

3.2.4. CATEGORIZAR VARIABLES

3.3. SELECCIONAR CASOS

La primera es la de seleccionar casos en base a una condición. Si la seleccionamos

Si ejecutamos esta opción veremos que en el

3.4. ORDENAR CASOS

3.5. PONDERAR CASOS

Si seleccionamos la opción >Datos >Ponderar casos del menú principal podemos

En este caso seleccionamos la variable FRECUENC, de forma que al analizar los

3.6. CONTAR CASOS

Ejemplo 3.8: Tenemos una muestra de 15 personas que responden a un cuestionario de

3.8. SEGMENTAR ARCHIVOS

resultados separados por género, grupos de edad, estadio de la enfermedad, tratamiento