Академический Документы
Профессиональный Документы
Культура Документы
CLÍNICOS
Inmaculada Arostegui
Amaia Bilbao
Comentario de las autoras:
Estos apuntes han sido desarrollados como complemento al curso titulado Introducción
al manejo del programa SPSS para el análisis de datos ofrecido en el programa de
formación continuada del Hospital Galdakao-Usansolo. Las autoras hemos tomado
como punto de referencia los textos citados en la bibliografía y hemos añadido nuestra
perspectiva personal y muchos años de experiencia en la enseñanza de la bioestadística
en ciencias sanitarias y experimentales, para generar este texto de ayuda al curso
mencionado
Autoras:
Inmaculada Arostegui Madariaga
Departamento de Matemática Aplicada y Estadística e Investigación Operativa
Facultad de Ciencia y Tecnología
Universidad del País Vasco UPV/EHU
Barrio Sarriena S/N. 48940 Leioa (Bizkaia)
e-mail: inmaculada.arostegui@ehu.es
Depósito-legal:
BI-281-08
Índice Bioestadística con SPSS
ÍNDICE
I. Arostegui, A. Bilbao i
Bibliografía Bioestadística con SPSS
BIBLIOGRAFÍA
Armitage P., Berry G.. Statistical Methods in Medical Research. 3rd edition. Blackwell Scientific
Publications, Oxford 1994.
Ferrán Aranaz M.. SPSS para Windows. Programación y Análisis Estadístico. McGraw-
Hill/Interamericana de España, Madrid 1996.
Fleiss J.L.. Statistical Methods for Rates and Proportions. 2nd edition. John Wiley & Sons, Inc.
New York 1981.
Kahn H.A., Sempos C.T. Statistical Methods in Epidemiology. Oxford University Press, Inc. New
York, 1989.
Landau S., Everitt B.S.. A handbook of statistical analysis using SPSS. Chapman Hall, London
2003.
Pérez C.. Técnicas estadísticas con SPSS. Prentice Hall, Madrid 2001.
Rosner B.. Fundamentals of Biostatistics. 4th edition. Duxbury Press, Belmont 1995.
I. Arostegui, A. Bilbao ii
Introducción al SPSS Bioestadística con SPSS
1.1. INTRODUCCIÓN
Desde sus orígenes, los ordenadores se han utilizado para el procesamiento estadístico
de datos. Aunque los campos de aplicación de la estadística sean diferentes, los métodos
son comunes, lo que ha dado lugar a la estandarización automatizada de las técnicas
estadísticas, apareciendo una gran variedad de paquetes estadísticos que difieren entre sí
en sus características, capacidad, facilidad de uso, entornos de aplicación, extensión,
precio, documentación, etc…
Entre estos paquetes estadísticos está el SPSS (Statistical Package for the Social
Sciences), con más de 30 años de existencia, diseñado inicialmente por Hull y Nie.
SPSS es un paquete estadístico que funciona a través de un sistema de ventanas. El
tratamiento de datos y los análisis estadísticos básicos se pueden llevar a cabo mediante
sencillos cuadros de diálogos y utilizando simplemente el ratón sin necesidad de
programar. La opción de realizar programas está siempre disponible para usuarios
expertos. Estas notas están diseñadas para la versión 11.0 de SPSS, aunque en la
actualidad existen versiones superiores disponibles.
En general, con SPSS podremos realizar:
• Tratamiento de datos: Se nos permitirá definir, modificar e introducir datos
creando ficheros de datos (ficheros con extensión *.sav).
• Tratamiento de salidas: Los resultados de los cálculos y análisis que le pidamos
se recogerán en un fichero de resultados o salidas (ficheros con extensión *.spo).
• Gráficos de alta resolución: Podremos obtener gráficos de alta resolución,
incluirlos en el fichero de resultados y modificarlos cuando creamos oportuno.
Para todo ello SPSS dispone de diferentes tipos de ventanas. Sin embargo, para los
objetivos más comunes es suficiente manejar las tres siguientes:
• Editor de datos: Este editor nos mostrará las variables (por columnas) e
individuos/observaciones (por filas) que contiene el fichero de datos. Es el que
nos permitirá definir, modificar o introducir datos.
• Navegador de salidas: Este navegador nos permitirá trabajar con el fichero de
resultados (*.spo) que reúne los resultados numéricos y gráficos que hayamos
realizado. Su particular menú nos permitirá insertar textos, gráficos, etc... En
general, podremos dar un aspecto de informe a los resultados obtenidos.
Aunque, la mayoría de las veces es más cómodo exportar estas salidas a un
procesador de textos y ahí dar un formato final y adecuado a los resultados. Esto
último se puede realizar fácilmente utilizando las opciones de copiar y pegar en
el editor.
• Editor de gráficos: Se activa con un doble click del ratón sobre el gráfico que se
quiera modificar. De esta forma se edita el gráfico en este editor, permitiendonos
hacer los cambios deseados sobre los colores, las escalas de los ejes, los títulos,
etc...
Por otra parte, SPSS es un programa modular. Hay que comprar cada modulo por
separado y actualizarlo periódicamente. Todas las técnicas que se cubren en estas notas
están integradas en la licencia adquirida por el Servicio Vasco de Salud/Osakidetza.
I. Arostegui, A. Bilbao 1
Introducción al SPSS Bioestadística con SPSS
1.2. AYUDA
La ayuda de SPSS está disponible de diferentes formas, aunque las formas más
comunes de acceder son a través del menú principal de ayuda directamente y a través
del botón de ayuda en los cuadros de diálogo.
Menú de ayuda (?). Todas las ventanas tienen un menú de ayuda (?) en la barra de
menús.
Si seleccionamos la opción >Ayuda >Temas veremos una ventana con varias pestañas:
• La pestaña Contenido muestra un listado general de temas. Es útil si se busca
información general. Si se pulsa sobre el icono de libro de cualquier tema,
aparece una lista desplegable de temas que tienen relación con el tema general
inicial. Algunos temas incluyen un botón Demostración en la parte inferior, que
permite acceder directamente a un tutorial sobre ese tema.
Ejemplo 1.1: Si se pulsa sobre Gráficos Interactivos, aparecerá una lista de iconos
de interrogación con aspectos diferentes sobre este tema. Si seleccionamos la
opción Galería de gráficos interactivos podremos ver los tipos principales de
gráficos interactivos que se pueden crear con SPSS.
I. Arostegui, A. Bilbao 2
Introducción al SPSS Bioestadística con SPSS
I. Arostegui, A. Bilbao 3
Introducción al SPSS Bioestadística con SPSS
I. Arostegui, A. Bilbao 4
Introducción al SPSS Bioestadística con SPSS
I. Arostegui, A. Bilbao 5
Introducción al SPSS Bioestadística con SPSS
I. Arostegui, A. Bilbao 6
Introducción al SPSS Bioestadística con SPSS
Vemos que el asesor estadístico nos indica que el método aconsejado es el de estimar el
coeficiente de correlación de Pearson y nos señala que para utilizarlo hay que pulsar
>Analizar >Correlaciones >Bivariadas >Pearson
El menú principal de ayuda incorpora además un Tutorial y una Guía de sintaxis. Esta
última ofrece una ayuda muy amplia y completa sobre la sintaxis del programa con
todos sus comandos ordenados por temas en archivos de tipo PDF.
Finalmente, en el menú principal de ayuda aparecen las opciones Acerca de SPSS y
Registro del producto. La primera ofrece información sobre la versión del programa y la
segunda permite registrarse como usuario y conectarse a la página web de SPSS
(www.spss.com).
I. Arostegui, A. Bilbao 7
Ficheros de datos Bioestadística con SPSS
2.1. INTRODUCCIÓN
El paquete estadístico SPSS para Windows se activará pulsando doblemente el ratón
sobre el icono previamente colocado en el escritorio o mediante la ejecución de las
instrucciones Inicio >Programas >SPSS for Windows >SPSS 11.0 para Windows.
Spss.lnk
Seguidamente, aparecerá un cuadro de dialogo, que se muestra a continuación,
preguntando qué desea hacer. Este menú nos permitirá básicamente ejecutar el tutorial,
introducir datos, abrir una base de datos existente (*.sav) o abrir archivos de otro tipo
como por ejemplo resultados o gráficos (*.spo). En los siguientes apartados se explica
de forma detallada como realizar cada una de estas acciones. Existen otras dos opciones
en el menú, sobre ejecución y creación de consultas que no desarrollaremos en estas
notas.
Este cuadro de dialogo puede ser cerrado en cualquier momento utilizando el botón
Cancelar. También podemos hacer que no vuelva a aparecer en posteriores ocasiones
seleccionando la opción No volver a mostrar este cuadro de dialogo que aparece en la
parte inferior del mismo. Todas las funciones que se van a describir a continuación se
pueden realizar igualmente desde el menú principal.
I. Arostegui, A. Bilbao 8
Ficheros de datos Bioestadística con SPSS
la ventana denominada Editor de datos SPSS donde se podrán ver los datos del fichero
de datos seleccionado.
Casos/
individuos
Variables
I. Arostegui, A. Bilbao 9
Ficheros de datos Bioestadística con SPSS
I. Arostegui, A. Bilbao 10
Ficheros de datos Bioestadística con SPSS
De esta forma, los datos tendrán un aspecto rectangular (tantas filas como número de
individuos y tantas columnas como número de variables).
Antes de proceder a introducir los datos, debemos crear la plantilla de captura de datos,
definiendo las variables y sus características de forma precisa.
2.3.1. DEFINIR VARIABLES
A cada variable del archivo se le debe asignar la definición del tipo de datos que
contendrá. Lo haremos a través del modo Vista variables y pinchando en el campo
interesado. Esta definición del tipo incluye los campos:
Nombre de la variable. El nombre de la variable puede contener cualquier carácter
aunque su máxima extensión es de 8 caracteres y debe comenzar por una letra. No son
caracteres válidos espacios en blanco, ni caracteres especiales como por ejemplo ¡, ¿, ‘,
“, *. Dos variables distintas no pueden tener el mismo nombre. No se hacen distinciones
entre caracteres mayúsculas y minúsculas. Es decir, los nombres Edad y EDAD son el
mismo.
Tipo de variable. Las variables pueden ser de diferente tipo: numérico, cadena, fecha,
etc,.… Distinguiremos entre los dos tipos más importantes: numéricas y cadenas.
Disponemos de 8
Disponemos de 8
dígitos, dos de ellos
caracteres
para decimales
Cuando la variable es de tipo numérico significa que sus valores se podrán tratar
numéricamente, es decir, se podrán hacer operaciones matemáticas con ella. Sin
embargo, cuando la variable es de tipo cadena, los valores que toma la variable son
caracteres y por ejemplo los caracteres “3” y “a” tienen el mismo tratamiento. Por tanto
no se podrán realizar operaciones matemáticas, aún cuando los caracteres tengan forma
de número. Además se podrá asignar el ancho de caracteres que dispondremos para los
valores de la variable y el número de decimales que se quieren utilizar cuando la
variable sea numérica. En los formatos para variables de tipo fecha se pueden utilizar
guiones, barras, espacios,... para separar los días, los meses y los años. Por ejemplo, el
formato dd/mm/aa utiliza barras para separarlos. El rango de siglo para identificar los
años únicamente con dos dígitos se puede determinar en Edición >Opciones. La
definición del resto de tipos de variables se puede encontrar en los manuales del SPSS.
Por defecto, todas las nuevas variables son numéricas de ancho 8 con 2 dígitos
decimales.
Se recomienda utilizar variables de tipo cuantitativo en vez de tipo cadena incluso para
designar variables cualitativas.
Etiqueta descriptiva de la variable y etiquetas de sus valores. Las etiquetas nos
permiten describir las variables de forma más detallada. Además se pueden asignar
etiquetas a los valores que puede tomar la variable.
I. Arostegui, A. Bilbao 11
Ficheros de datos Bioestadística con SPSS
Nombre de la
variable
La variable de nombre ENFCOR
muestra si el individuo ha padecido
alguna enfermedad coronaria
(ENFCOR=1), o bien, si el individuo no
ha padecido ninguna enfermedad
Codificación de los missing o valores perdidos. Debemos utilizar esta opción cuando
el fichero de datos contenga valores que hay que interpretarlos como faltantes. Por
ejemplo, si en nuestro fichero de datos debemos entender los valores 999 como
perdidos, deberemos especificarlo en un cuadro de dialogo de la siguiente forma:
Como podéis observar hay más campos que los aquí citados. Sin embargo hemos
considerado que los citados son los más importantes en cuanto a su utilidad.
2.3.2. INTRODUCIR LOS DATOS
Una vez que se han definido las variables, podemos empezar a introducir los datos.
Pasamos ahora al modo Vista de datos del editor y vemos como en las columnas
aparecerán las variables que hemos definido anteriormente. Para crear el fichero de
datos simplemente debemos introducir los valores ordenadamente en las celdas,
recordando que cada fila corresponde a un individuo.
2.3.3. GUARDAR LOS DATOS
Una vez que la introducción de los datos ha finalizado, se procede a guardar los datos
introducidos mediante la opción >Archivo >Guardar como del menú principal. Se
abrirá el cuadro de dialogo Guardar datos como donde debemos buscar el directorio o
carpeta donde queremos guardar la base de datos y escribir el nombre que queremos dar
a la base de datos. En el campo Tipo: aparecerá por defecto SPSS (*.sav) que
corresponde a la extensión de las bases de datos de SPSS. Pulse Guardar y el nuevo
fichero de datos quedará grabado para su posterior análisis. La primera vez que se crea o
se desea guardar un fichero de datos, se recomienda usar la opción Guardar como aquí
descrita, en vez de la opción Guardar. Una vez creado el fichero, en posteriores
opciones de grabado, será suficiente utilizar la opción Guardar o simplemente pulsar
sobre el icono del diskette que aparece bajo el menú principal de SPSS.
Se recomienda usar la opción Guardar periódicamente en el proceso de introducción de
datos y no únicamente cuando los datos se han introducido en su totalidad, para así
evitar perder la información introducida en el ordenador debido a cualquier imprevisto.
I. Arostegui, A. Bilbao 12
Ficheros de datos Bioestadística con SPSS
El proceso de recogida de datos puede ser intermitente, no es necesario que los datos
sean introducidos en su totalidad de una sola vez.
Seleccionamos el fichero de datos que queremos abrir en SPSS y esto nos llevará a un
asistente para poder leer los datos correctamente. Si la primera fila contiene los nombre
de las variables, es posible leer esos nombres. Simplemente deberemos indicar sí
cuando en el asistente nos muestre: ¿Están incluidos los nombres de las variables en la
parte superior del archivo?.
Si cada variable empieza en la misma posición de columna en cada caso, se dice que el
formato es fijo. Si se utilizan comas, espacios, tabuladores u otros caracteres para
separar los valores de distintas variables, se dice que el formato es delimitado.
I. Arostegui, A. Bilbao 13
Ficheros de datos Bioestadística con SPSS
Sin embargo, si nos interesa importar algún otro fichero de datos utilizaremos el
administrador ODBC seleccionando la opción >Archivo >Abrir base de datos >Nueva
consulta
Esto nos llevará al asistente que nos facilitará la lectura de datos deseada. El asistente es
muy fácil de manejar pero en general tendremos que elegir la fuente de la base de datos
I. Arostegui, A. Bilbao 14
Ficheros de datos Bioestadística con SPSS
PA1.SAV
IND NOMBRE SEXO HOSPITAL
1043 Aguirre H 111
2751 Bilbao H 111
3528 Garay M 111
4705 Kintana H 111
PA2.SAV
IND NOMBRE SEXO HOSPITAL
1172 Mitxelena M 112
2094 Ruiz M 112
3877 Legarreta M 112
Para ello debemos en primer lugar abrir uno de los dos ficheros, por ejemplo el primero
PA1.SAV y seleccionar >Datos >Fundir archivos >Añadir casos. Esto nos llevará al
cuadro de dialogo donde habrá que elegir el fichero que contiene el resto de los casos.
En nuestro caso el segundo fichero PA2.SAV. Comprobar y modificar si fuera
necesario, que el fichero resultante tiene las variables deseadas mediante el cuadro de
dialogo que nos ofrecerá el SPSS. El SPSS ha creado un nuevo fichero que contiene los
casos de los dos ficheros. Guardarlo utilizando la opción > Archivo >Guardar como. Si
utilizamos la opción >Archivo >Guardar (o lo que es equivalente, pulsamos el diskete
del menú principal), el archivo resultante se guardará encima del que se había abierto en
último lugar (PA2.SAV), dando lugar a la pérdida de este último.
Este proceso generará un nuevo fichero de datos que contiene los 4 individuos de
PA1.SAV más los 3 individuos de PA2.SAV (las variables son las mismas en los dos
ficheros). Es decir, la base de datos resultante será:
I. Arostegui, A. Bilbao 15
Ficheros de datos Bioestadística con SPSS
ANTES.SAV
HISTORIA SEXO EDAD NIVEL1 O2
145634 H 53 243
356742 H 24 129
672351 M 36 238
673461 H 64 167
DESPUES.SAV
HISTORIA NIVEL2 O2 TEST SEVERIDAD
145634 298 neg leve
356742 173 pos grave
672351 254 pos leve
673461 201 neg moderado
Los individuos de los dos ficheros son los mismos (Podemos identificarlos por su
historia). Sin embargo tenemos dos fuentes de información sobre ellos: los datos
relativos a “antes” de una intervención (ANTES.SAV) y los datos posteriores a la
intervención (DESPUES.SAV). Queremos crear un nuevo fichero de datos que reúna la
información de los dos ficheros.
I. Arostegui, A. Bilbao 16
Ficheros de datos Bioestadística con SPSS
Para ello debemos en primer lugar abrir uno de los dos ficheros, por ejemplo el primero
ANTES.SAV y seleccionar >Datos >Fundir archivos >Añadir variables. Esto nos
llevará al cuadro de diálogo donde habrá que indicar qué fichero contiene el resto de la
información. En nuestro caso DESPUES.SAV. En el siguiente cuadro de diálogo habrá
que indicar cuál es la variable clave para identificar cada caso (variable historia),
teniendo en cuenta que los ficheros deben estar ordenados de forma ascendente respecto
a la variable clave para que la asignación se realice correctamente. Además, habrá que
comprobar y modificar si fuera necesario, que el fichero resultante tiene las variables
deseadas. El SPSS ha creado un nuevo fichero que contiene los casos de los dos
ficheros. Guardarlo como se ha explicado en el apartado anterior, utilizando la opción
>Archivo >Guardar como, pues en otro caso se perderá la información del fichero
DESPUES.SAV.
Este proceso generará un nuevo fichero de datos que contiene las siete variables. Es
decir, la base de datos resultante será de la forma:
I. Arostegui, A. Bilbao 17
Funciones del editor de datos Bioestadística con SPSS
3.1. INTRODUCIÓN
En el capitulo anterior se han descrito algunas de las funciones básicas del editor de
datos, especialmente las destinadas a crear un fichero de datos. Aquí se detallan algunas
de las acciones más importantes a tener en cuenta:
Introducir datos. En el editor de datos seleccione una casilla en Vista de datos e
introduzca el valor de los datos. El valor se muestra en el Editor de casillas situado en
la parte superior del editor de datos. Pulse Intro o seleccione otra casilla para registrar el
valor.
Reemplazar o modificar un valor. En Vista de datos, pulse sobre la casilla que desee
modificar, su valor aparecerá en el Editor de casillas, reemplace el valor directamente
en la casilla o en el editor de casillas y pulse Intro o desplácese a otra casilla.
Insertar un nuevo caso. En Vista de datos, seleccione cualquier casilla en el caso (fila)
debajo de la posición donde desea insertar el nuevo caso y elija en los menús Datos >
Insertar caso. Se inserta una fila nueva para el caso y todas las variables reciben el valor
perdido por el sistema.
Insertar una nueva variable. Seleccione cualquier casilla de la variable a la derecha
(Vista de datos) o debajo (Vista de variables) de la posición donde desea insertar la
nueva variable. Elija en los menus Datos >Insertar variable. Se inserta una nueva
variable y todos los casos reciben el valor perdido por el sistema.
Una vez que la base de datos ha sido generada, recuperada o simplemente abierta,
existen otra serie de funciones específicas que se pueden realizar sobre los datos.
I. Arostegui, A. Bilbao 18
Funciones del editor de datos Bioestadística con SPSS
En el cuadro de diálogo que aparece hay que indicar cuál va ser el nombre de la nueva
variable que queremos crear.
Para ello le daremos nombre
como variable de destino.
Posteriormente escribiremos
la expresión que va a dar
lugar a la nueva variable.
Para ello disponemos de:
variables de origen
operadores algebraicos
múltiples funciones
I. Arostegui, A. Bilbao 19
Funciones del editor de datos Bioestadística con SPSS
Ejemplo 3.2: Supongamos que tenemos codificadas las variables dicotómicas (Si/No)
como 1 y 2 respectivamente. Puede haber procedimientos en los que es necesario que la
codificación sea 0 = No y 1 = Si. Podríamos seleccionar esas variables (todas deben de
ser del mismo tipo) y recodificarlas simultáneamente.
A modo de ejemplo, vamos a realizarlo con las variables HIPERTEN (es hipertensa) y
CONOCIA (conocía previamente su diagnóstico) del fichero de datos
ENDOMETR.SAV. Vemos que dichas variables están codificadas como 1 y 2.
I. Arostegui, A. Bilbao 20
Funciones del editor de datos Bioestadística con SPSS
Si en vez de modificar los valores de estas variables ya existentes queremos crear una
nueva, se abrirá un cuadro de diálogo en el que tendremos que dar nombre (y etiqueta
opcionalmente) a la nueva variable que vamos a crear. Posteriormente tendremos que
realizar el mismo procedimiento de asignar valores nuevos a los antiguos. La nueva
variable creada, será la última en la Vista de Datos del Editor de datos.
I. Arostegui, A. Bilbao 21
Funciones del editor de datos Bioestadística con SPSS
I. Arostegui, A. Bilbao 22
Funciones del editor de datos Bioestadística con SPSS
usa los percentiles para categorizar, las categorías creadas tienen un número
aproximadamente similar de casos. Por ejemplo si creamos 2 grupos, cada uno tendrá
aproximadamente la mitad de los casos. Hay que seleccionar >Transformar
>Categorizar variables y después seleccionar la variable ó variables que se desean
categorizar y el número de categorías.
Ejemplo 3.5: Se ha elegido la variable EDAD del fichero ENDOMETR.SAV y se han
creado 4 categorias.
Se creará al final del fichero una variable que indica a qué grupo pertenece el caso.
I. Arostegui, A. Bilbao 23
Funciones del editor de datos Bioestadística con SPSS
Ejemplo 3.6: vamos a estudiar a las mujeres que tenían 40 años ó menos en el momento
de realizar nuestro estudio.
La segunda opción nos permite seleccionar una muestra aleatoria de nuestro fichero. En
la ventana que aparece podremos elegir una muestra aproximada de un % de los casos ó
un número exacto de casos.
Otra posibilidad de seleccionar casos es a partir de un rango de los casos existentes (por
ejemplo del caso 100 al 200)
I. Arostegui, A. Bilbao 24
Funciones del editor de datos Bioestadística con SPSS
Todas estas opciones nos permiten elegir entre filtrar los casos no seleccionados
(eliminarlos de los procedimientos sin eliminarlos físicamente del fichero de datos) o
eliminarlos físicamente.
Si queremos volver a utilizar todos los casos en los análisis ó procedimientos hay que
seleccionar la opción Seleccionar todos los casos del cuadro de diálogo Seleccionar
casos.
En la ventana que se abre hay que seleccionar la o las variables de ordenación e indicar
si se quiere que el orden sea ascendente ó descendente. Hay que tener en cuenta que si
realizamos una ordenación por múltiples variables cada variable se va a ordenar de
forma anidada dentro de los valores de la variable de ordenación previa. Así, por
ejemplo, si ordenamos por sexo (´h´y ´m´) y edad, el fichero va a presentar primero los
casos de los hombres (´h´) ordenados por edad y luego los casos de mujeres (´m´)
ordenados por edad.
I. Arostegui, A. Bilbao 25
Funciones del editor de datos Bioestadística con SPSS
Podemos crear un fichero con las ocho posibles situaciones reflejadas en la tabla (hemos
utilizado como codificación 1 = Si, 0 = No) y una variable llamada por ejemplo
FRECUENC que será posteriormente nuestra variable de ponderación en el análisis.
Nuestros datos quedarían de esta forma en el Editor de datos:
Recuento
GRUPO
A AB B O Total
ENF 0 2625 226 570 2892 6313
1 472 29 102 698 1301
Total 3097 255 672 3590 7614
Hay que tener en cuenta que si ponderamos un fichero de datos por una variable, dichos
datos están ponderados hasta que no le indiquemos explícitamente al programa que
queremos deshacer dicha ponderación.
I. Arostegui, A. Bilbao 26
Funciones del editor de datos Bioestadística con SPSS
De esta forma, una nueva variable llamada CONTAR que nos dice el número de veces
que cada paciente responde “Nunca” es añadida en último lugar al fichero de datos.
I. Arostegui, A. Bilbao 27
Funciones del editor de datos Bioestadística con SPSS
Las siguientes tablas muestran la frecuencia de cada una de las posibles respuestas a la
primera pregunta con las opciones Comparar los grupos y Organizar los resultados por
grupos, respectivamente.
P1
Porcentaje Porcentaje
SEXO Frecuencia Porcentaje válido acumulado
1 Válidos 0 1 16,7 16,7 16,7
1 3 50,0 50,0 66,7
2 1 16,7 16,7 83,3
3 1 16,7 16,7 100,0
Total 6 100,0 100,0
2 Válidos 0 3 33,3 33,3 33,3
1 2 22,2 22,2 55,6
2 2 22,2 22,2 77,8
3 2 22,2 22,2 100,0
Total 9 100,0 100,0
I. Arostegui, A. Bilbao 28
Funciones del editor de datos Bioestadística con SPSS
P1 a
Porcentaje Porcentaje
Frecuencia Porcentaje válido acumulado
Válidos 0 1 16,7 16,7 16,7
1 3 50,0 50,0 66,7
2 1 16,7 16,7 83,3
3 1 16,7 16,7 100,0
Total 6 100,0 100,0
a. SEXO = 1
P1a
Porcentaje Porcentaje
Frecuencia Porcentaje válido acumulado
Válidos 0 3 33,3 33,3 33,3
1 2 22,2 22,2 55,6
2 2 22,2 22,2 77,8
3 2 22,2 22,2 100,0
Total 9 100,0 100,0
a. SEXO = 2
La opción Analizar todos los casos, no crear los subgrupos, nos permite volver a
utilizar el fichero de datos completo, sin segmentar.
I. Arostegui, A. Bilbao 29
Procedimientos descriptivos básicos Bioestadística con SPSS
4.1. INTRODUCIÓN
A la hora de realizar cualquier análisis estadístico de datos con SPSS debemos seguir
unos pasos muy simples y básicos. En primer lugar, debemos introducir los datos en el
Editor de datos, como se ha explicado en el tema 2. A continuación debemos
asegurarnos de que tanto las variables recogidas, como los valores de dichas variables
están correctamente definidos, codificados e introducidos en el editor. Posteriormente,
seleccionaremos un procedimiento del menú principal para crear tablas, calcular
estadísticos o generar gráficos. El siguiente paso consiste en seleccionar las variables a
las que se desea aplicar los procedimientos seleccionados. Finalmente, se ejecuta el
procedimiento y se interpretan los resultados obtenidos.
Comenzaremos describiendo un problema típico que requiere una solución estadística y
utilizaremos este ejemplo para parte del lenguaje subyacente al campo de la estadística.
Un investigador, estudiando una enfermedad del corazón, en personas mayores de 18
años, ha identificado cuatro factores potencialmente asociadas con el desarrollo de la
misma: la edad, el peso, el número de cigarrillos fumados por día y los antecedentes
familiares de enfermedad cardiaca. El investigador quiere acumular pruebas que
confirmen estos factores como contribuyentes al desarrollo de la enfermedad, o
demuestren que no son importantes. ¿Cómo debe proceder?
Aquí se plantea un problema estadístico. ¿Qué características lo identifican como tal?
Simplemente estas:
1. El problema se asocia a un grupo grande de objetos (en esta caso, personas) acerca
de las cuales van a hacerse inferencias. Este grupo de objetos se llama población.
2. Ciertas características de los miembros de la población son de particular interés. El
valor de cada una de estas características puede cambiar de un individuo a otro
dentro de la población. Estas características son las que hemos definido como
variables.
3. La población es demasiado grande para ser estudiada en su totalidad. Por tanto,
debemos hacer inferencias sobre la población basadas en lo observado estudiando
solo una porción, o muestra, de individuos de la población.
En el uso de las técnicas estadísticas siempre se trabaja en dos mundos. El mundo ideal
está al nivel de la población y es de naturaleza teórica. Es el mundo que desearíamos
ver. El mundo de la realidad es el mundo de la muestra. Este es el nivel al que realmente
operamos. Esperamos que las características de la muestra reflejen bien las
características de la población. Es decir, tratamos nuestra muestra como un
microcosmos que refleja a toda la población.
Una vez que los datos han sido recogidos, introducidos y codificados, el primer paso en
todo estudio que conlleve el análisis estadístico de unos datos provenientes de una
muestra es la propia descripción de los individuos de la muestra. Los procedimientos
descriptivos se dividen en tres grandes grupos: tablas de frecuencias, estadísticos
descriptivos y gráficos.
I. Arostegui, A. Bilbao 30
Procedimientos descriptivos básicos Bioestadística con SPSS
I. Arostegui, A. Bilbao 31
Procedimientos descriptivos básicos Bioestadística con SPSS
Las variables de interés en este experimento son el sexo, la edad y el peso del paciente,
el número de cigarrillos fumados por día y la historia familiar.
El sexo del paciente es una variable categórica de tipo nominal, más concretamente
dicotómica. El número de cigarrillos fumados por día es una variable numérica de tipo
discreto, su conjunto de valores posibles es {0,1,2,3,…}. Si el historial familiar se
estudia registrando el número de padres y abuelos que experimentan dolencias cardiacas
entonces esta variable es también numérica de tipo discreto. El conjunto de sus posibles
valores es {0, 1, 2, 3, 4, 5, 6}. Las variables edad y peso son numéricas y continuas. Por
ejemplo, la edad de una persona puede tomar cualquier valor entre 18 y 100 años,
intervalo continuo de tiempo y la variable peso de una persona puede situarse en
cualquier lugar entre 40 y, quizá, 150 kg.
I. Arostegui, A. Bilbao 32
Procedimientos descriptivos básicos Bioestadística con SPSS
I. Arostegui, A. Bilbao 33
Procedimientos descriptivos básicos Bioestadística con SPSS
4.4. ESTADISTICOS
Una medida descriptiva relacionada con una variable aleatoria, cundo la variable se
considera sobre toda la población, se denomina parámetro. Los parámetros se
representan generalmente mediante letras griegas y no es posible obtener su valor
exacto salvo que sean estudiados todos los miembros de la población. Sin embargo,
podemos utilizar métodos estadísticos para aproximarnos a su valor basándonos en los
datos obtenidos a partir de una muestra extraída de la población. Una medida
descriptiva relacionada con una variable aleatoria, cuando la variable sólo se considera
sobre una muestra se denomina estadístico. Los estadísticos se utilizan en la
descripción de datos numéricos y sirven también como aproximación a los parámetros
correspondientes a la población.
4.3.1. ESTADÍSTICOS DE TENDENCIA CENTRAL
Son medidas que pretenden resumir en un único valor la localización de los datos y por
lo tanto su posición central. El más conocido es la media aritmética (suma de todos los
valores dividido por el número de datos), representada mediante el símbolo x . Aunque
según el tipo de procedencia y características de los datos se pueden usar otras medias:
media geométrica (por ejemplo para porcentajes), media armónica (para velocidades,
rendimientos, etc.).
También se utiliza con frecuencia la mediana ó valor que está situado en el medio de
todos los valores ordenados. Si n es impar, la mediana será aquella observación que
ocupa el lugar central de todos los valores observados y ordenados de menor a mayor.
Sin embargo, si n es par, la mediana se calculará como el promedio de las dos
observaciones centrales. Este es un estadístico descriptivo muy resistente a la existencia
de valores extremos, mientras que la media aritmética no lo es.
4.3.2. ESTADÍSTICOS DE POSICIÓN
Hemos visto que la mediana es el valor de la variable que deja un 50% de los valores a
cada uno de sus lados. Es decir, es el valor central con respecto a la posición. Además
de la mediana hay otros estadísticos que representan la posición de la variable.
Los valores de la variable que nos dividen la muestra ordenada en 100 pedazos iguales
se denominan percentiles. Es decir, Pi o el percentil i-ésimo es el valor de la variable
que me deja a su izquierda el i% de los valores de la muestra. Los más comúnmente
utilizados son los cuartiles y los deciles.
4.3.3. ESTADÍSTICOS DE DISPERSIÓN O VARIABILIDAD
Una característica que no está siendo detectada por los estadísticos de tendencia central
es la variabilidad. Hay alguna fluctuación en las observaciones y no es siempre la
misma. Algunas están próximas a la media; otras no. Necesitamos una medida que
cuantifique esta variabilidad o dispersión. Queremos un estadístico con la propiedad de
que, cuando los datos puntuales estén agrupados cerca de la media, su valor sea
pequeño; y que, cuando los datos puntuales están distribuidos de manera más amplia,
muchos de ellos alejados de la media, su valor sea grande. La manera más lógica de
medir la variabilidad respecto de la media, sería determinar la distancia de cada dato a la
media (x − x ), y sumar estas distancias. Este razonamiento no funciona, puesto que
I. Arostegui, A. Bilbao 34
Procedimientos descriptivos básicos Bioestadística con SPSS
estas diferencias pueden ser positivas o negativas dependiendo si los datos están a la
derecha o a la izquierda de la media, de forma que al sumarlos se van anulando unos
con otros. El resultado es que valores muy alejados de la media podrían dar una
variabilidad nula, si este alejamiento se compensa hacia ambos lados de la media. La
forma habitual de evitar este problema es elevar las diferencias al cuadrado. Para
asegurarnos de que el tamaño de la muestra no influye en la medida de variabilidad, se
trabaja con el promedio de las diferencias al cuadrado en vez de con la suma de las
diferencias al cuadrado directamente. Este estadístico de variabilidad se denomina
varianza y se representa por s2. A menudo se utiliza su raíz cuadrada positiva,
denominada desviación estándar, con el fin de volver a establecer la unidad de medida
original de la variable.
Existen medidas de dispersión muy simples, como el rango, que se define como la
diferencia entre el mayor y el menor de los valores observados, y el rango
intercuartílico, que se define como la diferencia entre el tercer y el primer cuartil y se
caracteriza por ser la longitud del intervalo que contiene el 50% de los datos situados en
el centro. Menos utilizada, aunque útil para comparar la variabilidad entre variables
medidas en distintas unidades es el coeficiente de variación, también denominado
dispersión relativa o desviación estándar relativa (RSD%), que es una medida
adimensional que se define como el cociente entre la desviación estándar y la media
aritmética, habitualmente multiplicada por 100.
4.3.4. ESTADÍSTICOS DE FORMA
En general, los dos estadísticos de forma que más se usan (aunque no mucho) son el
coeficiente de asimetría que nos habla de si la distribución de los datos es simétrica
(coeficiente = 0), asimétrica a la derecha (coeficiente >0) ó asimétrica a la izquierda
(coeficiente <0) y el coeficiente de curtosis que nos indica si hay gran agrupación de
datos hacia el centro (distribución leptocúrtica) ó si hay agrupación en los extremos
(platicúrtica).
4.3.5. CÁLCULO DE ESTADÍSTICOS CON SPSS
La forma de calcular estadísticos en SPSS es la misma que la utilizada para obtener la
tabla de frecuencias, seleccionar >Analizar >Estadísticos descriptivos >Frecuencias.
Un cuadro de diálogo nos pedirá que indiquemos de qué variables queremos calcular los
estadísticos. El botón inferior izquierdo denominado Estadísticos nos abre un nuevo
cuadro de dialogo que nos permite seleccionar los estadísticos que deseamos calcular
para las variables seleccionadas. No olvidemos que el cálculo de estadísticos solo tiene
sentido para variables numéricas.
Ejemplo 4.3: Supongamos que tenemos una muestra de 89 pacientes sometidos a una
intervención quirúrgica. Se recogen para cada paciente el número de identificación, el
peso, la altura, el analgesico utilizado (1 = Nolotil, 2 = Proparacetamol, 3 = Adolonta) y
el tiempo de duración de la intervención en minutos. Vamos a calcular estadísticos
descriptivos de las variables PESO, ALTURA y TIEMPO.
Se seleccionan como estadísticos de tendencia central la media y la mediana, como
estadísticos de dispersión la varianza y la desviación estándar, como estadísticos de
posición los cuartiles y los percentiles 10 y 90 (estos últimos hay que incluirlos
específicamente y añadirlos a la lista) y como estadísticos de forma el coeficiente de
asimetría y la curtosis. Los resultados escogidos aparecen en el visor de resultados en
una tabla.
I. Arostegui, A. Bilbao 35
Procedimientos descriptivos básicos Bioestadística con SPSS
Estadísticos
I. Arostegui, A. Bilbao 36
Procedimientos descriptivos básicos Bioestadística con SPSS
4.5. GRÁFICOS
Aunque toda la información necesaria en el proceso de descripción de una variable
viene dada por la tabla de frecuencias o los estadísticos, a menudo es más conveniente
utilizar métodos gráficos con el fin de obtener una rápida descripción de los datos. Los
gráficos nos proporcionan una información general, rápida y fácil de interpretar. Para
que un gráfico sea bueno, debe poder entenderse sin necesidad de recurrir al texto. Para
ello es necesario que esté debidamente etiquetado, que aparezcan las unidades en los
ejes, etc.
La forma más sencilla y rápida de obtener gráficos descriptivos simples es nuevamente
a través de >Analizar >Estadísticos descriptivos >Frecuencias. Un cuadro de diálogo
nos pedirá que indiquemos de qué variables queremos los gráficos. El botón inferior
derecho denominado Gráficos nos abre un nuevo cuadro de dialogo que nos permite
seleccionar los gráficos que deseamos calcular para las variables seleccionadas.
Una forma más general de realizar todo tipo de gráficos es a través de la opción
>Gráficos del menú principal. Esta opción nos permite seleccionar el gráfico deseado
de entre todas las opciones gráficas que oferta el programa SPSS.
En cualquier caso, hay muchos métodos gráficos. Continuando con el objetivo de
descripción de los datos planteado en este capítulo, aquí mostraremos algunos de ellos,
en función de si la variable que queremos describir es categórica, numérica discreta o
numérica continua. En capítulos posteriores, se profundizará más sobre algunos otros
gráficos más útiles en procedimientos estadísticos más complejos.
4.5.1 VARIABLE CATEGÓRICA
Diagrama de barras: Se representan las modalidades en un eje y las frecuencias
(absolutas o relativas) en el otro mediante barras. Puede ser vertical u horizontal.
Diagrama de sectores: Se divide el área de un círculo en sectores proporcionales a las
frecuencias (absolutas o relativas) de las modalidades.
Ejemplo 4.4: Volviendo a los datos de pacientes sometidos a una prótesis de cadera en
el ejemplo 4.2, veamos una representación grafica de la variable EDAD. De las dos
opciones disponibles en SPSS escogemos el diagrama de barras, vemos que podemos
realizarlo para las frecuencias (opción utilizada en el ejemplo) para los porcentajes.
Los resultados se muestran el visor de resultados en modo de gráfico. Vemos que los
menores de 50 son menos de 10, mientras que entre 50 y 70 años hay alrededor de 120
personas y con más de 70 años hay más de 140 personas.
I. Arostegui, A. Bilbao 37
Procedimientos descriptivos básicos Bioestadística con SPSS
EDAD
160
140
120
100
80
60
40
Frecuencia
20
0
1 2 3
EDAD
Obsérvese que los valores de la variable edad que aparecen en el eje horizontal son
códigos numéricos: 1 (< 50), 2 (50-70) y 3 (> 70). Sería deseable tener estos códigos
etiquetados en la fase de introducción de datos y creación de variables y de esta forma el
gráfico mostraría las etiquetas asignadas a los valores de la variable.
4.5.1 VARIABLE NUMÉRICA DISCRETA
Gráfico de barras: Al igual que en el diagrama de barras, se representan las
modalidades en un eje y las frecuencias (absolutas o relativas) en el otro mediante
barras. Las diferencias con el anterior son que al ser la variable cuantitativa las
modalidades deben estar ordenadas, las barras deben ser de la misma anchura y la
distancia de separación entre ellas debe ser la misma.
El SPSS no hace diferenciación entre el diagrama y el gráfico de barras, utiliza los
criterios del gráfico de barras para ambos.
4.5.1 VARIABLE NUMÉRICA CONTINUA
Histograma: Se utiliza cuando los datos están agrupados en intervalos. Si no es así,
SPSS realiza una agrupación de los datos en intervalos de igual longitud. Las opciones
existentes permiten controlar la agrupación, fijando bien el número de intervalos o bien
la longitud de cada intervalo. Se construye un sistema de rectángulos sobre los ejes,
donde la base son los valores la variable y cada rectángulo tiene un área proporcional a
la frecuencia (absoluta o relativa) del intervalo al que representa.
Gráfico de tallos y hojas (stem-and-leaf): Es un híbrido entre una tabla y un gráfico,
ya que muestra los valores numéricos de la variable, pero los perfiles son parecidos a un
histograma. Este gráfico se realiza con la opción de SPSS >Analizar >Estadísticos
descriptivos >Explorar.
Ejemplo 4.6: Volviendo a los datos del ejemplo 4.3 sobre pacientes intervenidos
quirúrgicamente, realizamos un histograma y un diagrama de tallos y hojas de los datos
de la variable TIEMPO.
Para la creación del histograma, vemos como el SPSS ha creado los grupos para la
variable TIEMPO automáticamente, ha escogido intervalos de longitud 20. Además, nos
ofrece también la media y la desviación estándar de la variable, así como el tamaño de
la muestra.
I. Arostegui, A. Bilbao 38
Procedimientos descriptivos básicos Bioestadística con SPSS
TIEMPO
40
30
20
Frecuencia
10
Desv. típ. = 34,47
Media = 57,0
0 N = 89,00
20,0 60,0 100,0 140,0 180,0
40,0 80,0 120,0 160,0 200,0
TIEMPO
2,00 0 . 11
28,00 0 . 2222222222233333333333333333
25,00 0 . 4444444444444444455555555
16,00 0 . 6666666667777777
6,00 0 . 889999
6,00 1 . 000001
2,00 1 . 22
4,00 Extremes (>=135)
Estos gráficos nos indican que la distribución del tiempo de duración de la intervención
es sesgada a la derecha (recordamos que su coeficiente de asimetría es 1.54)
Una vez que se ha creado un gráfico, uno de los aquí descritos o cualquier otro, se
pueden editar muchos de sus atributos para cambiar su aspecto. Por ejemplo, se pueden
cambiar el título, el etiquetado, los colores, las fuentes, etc…Para editar un gráfico en el
visor, solo hay que posicionarse sobre él y pulsar dos veces el botón izquierdo del ratón.
El gráfico aparecerá entonces en una ventana de edición gráfica. Se puede editar el
gráfico con los menús, con la barra de herramientas o pulsando doblemente sobre el
objeto que desee modificar.
Ejemplo 4.7: Volviendo a los datos del ejemplo 4.6, supongamos que deseamos editar el
histograma anterior para cambiar la longitud de los intervalos de la variable TIEMPO.
Si pulsamos doblemente sobre el gráfico en el mismo visor de resultados, se abre una
ventana de edición de gráficos.
I. Arostegui, A. Bilbao 39
Procedimientos descriptivos básicos Bioestadística con SPSS
Podemos fijar el número de intervalos deseado o la longitud de los intervalos, así como
el límite inferior y superior del primer y último intervalo respectivamente, en este caso
escogemos realizar el gráfico con 8 intervalos. Asimismo podemos modificar cualquiera
de los atributos del gráfico editado. En este caso hemos decidio también eliminar la
leyenda con los estadísticos y el resultado es el siguiente.
I. Arostegui, A. Bilbao 40
Procedimientos descriptivos básicos Bioestadística con SPSS
TIEMPO
50
40
30
20
Frecuencia
10
0
15,0 45,0 75,0 105,0 135,0 165,0 195,0 225,0
TIEMPO
SPSS dispone también de una opción para crear gráficos interactivos mediante la
selección de >Gráficos >Interactivos.
I. Arostegui, A. Bilbao 41
Procedimientos descriptivos básicos Bioestadística con SPSS
dispersión, siendo las más comúnmente utilizadas la media y la desviación estándar. Sin
embargo, si la distribución de una variable continua es muy sesgada es más correcto
utilizar adicionalmente la mediana y el rango intercuartílico como medidas de tendencia
central y dispersión respectivamente. Si ocurre esto último, la descripción se puede
completar con un histograma de la variable continua sesgada o con su coeficiente de
asimetría. Un ejemplo de resultados descriptivos de la muestra aquí analizada serían la
siguiente tabla y gráfico.
n = 89
Peso (kg): x (DE) 71.4 (12.45)
Altura (m): x (DE) 1.68 (0.094)
Duración de la IQ (min):
x (DE) 57.02 (34.47)
Me (RI) 45 (40)
Analgesia: n (%)
Nolotil 28 (31%)
Proparacetamol 31 (35%)
Adolonta 30 (34%)
IQ = Intervención qirúrgica
DE = Desviación estándar; RI = Rango intercuartílico
Duración de la Intervención Quirúrgica
(Coeficiente de asimetría = 1.54)
50
40
30
20
Número de pacientes
10
0
15,0 45,0 75,0 105,0 135,0 165,0 195,0 225,0
I. Arostegui, A. Bilbao 42
Inferencia para una muestra Bioestadística con SPSS
5.1. INTRODUCCIÓN
Toda investigación estadística se propone estudiar un cierto carácter (variable) que se
presenta en los individuos de una población determinada. Cuando se tiene información
de todos y cada uno de los elementos de la población, se dice que se está realizando un
censo. Sin embargo, ello no siempre es posible o conveniente. Unas veces porque la
población es infinita; otras, porque se trata de pruebas destructivas; a veces, porque la
población está constituida por elementos potenciales (por ejemplo, el estudio de la
proporción de enfermos que sufren efectos secundarios al ser tratados con un
medicamento); en la mayoría de las ocasiones, porque cada observación conlleva un
"coste".
Como hemos mencionado anteriormente, este tipo de consideraciones lleva al
investigador a tomar información de una sola parte de la población, llamada muestra.
Los problemas que se plantean de forma inmediata son los siguientes:
1. ¿Cómo se obtienen conclusiones acerca de la población a partir de los datos de la
muestra?
2. ¿Qué grado de fiabilidad poseen dichas conclusiones?
3. ¿Hasta qué punto los valores muestrales son representativos de los poblacionales?
La metodología básica de la Estadística es, por tanto, la inducción. A la hora de
interpretar los resultados hay que tener en cuenta que no se trata de resultados
"seguros", sino que tienen un cierto "grado de confianza". La Inferencia Estadística es
el conjunto de métodos destinado a obtener esos resultados y a medir su grado de
confianza.
Dentro de la Inferencia Estadística podemos distinguir dos grandes áreas: estimación y
contraste de hipótesis. La estimación consiste en aproximar los parámetros de la
población mediante los valores de los estadísticos obtenidos en la muestra. En el
contraste de hipótesis, se realiza una hipótesis sobre uno o varios parámetros de la
población y se construye un método para, en función de los valores de la muestra,
aceptar o rechazar dicha hipótesis.
5.2. ESTIMACIÓN
Para que una muestra sea válida debe ser representativa de la población. Esto se
garantiza mediante la selección de una muestra aleatoria simple. Una muestra aleatoria
simple es un conjunto de elementos de la población, tal que cada elemento es elegido de
manera independiente y la probabilidad de ser elegido es la misma para todos los
individuos.
La estimación consiste en aproximar los parámetros de la población por los valores de
los estadísticos en la muestra. Los parámetros suelen representar características de la
población y son cantidades desconocidas a priori, se representan mediante letras
griegas. Los estadísticos sin embargo, como hemos explicado en el capítulo anterior,
son cantidades numéricas que se calculan a partir de los valores de la variable obtenidos
en una muestra, se representan mediante letras latinas.
I. Arostegui, A. Bilbao 43
Inferencia para una muestra Bioestadística con SPSS
I. Arostegui, A. Bilbao 44
Inferencia para una muestra Bioestadística con SPSS
I. Arostegui, A. Bilbao 45
Inferencia para una muestra Bioestadística con SPSS
I. Arostegui, A. Bilbao 46
Inferencia para una muestra Bioestadística con SPSS
Podemos observar que los límites del intervalo de confianza al 95% para la media
coinciden con los calculados anteriormente.
5.2.2. ESTIMACIÓN DE LA PROPORCIÓN
Consideremos la situación siguiente: en una población de interés se está estudiando un
rasgo particular y cada miembro de la población puede clasificarse según que posea o
no ese rasgo. La inferencia se hace con respecto al parámetro p, proporción de la
población que tiene el rasgo. ¿Cuál es el estimador puntual lógico para p? El sentido
común indica que deberíamos extraer una muestra aleatoria de la población de interés,
determinar la proporción de miembros con el rasgo en la muestra y utilizar la
I. Arostegui, A. Bilbao 47
Inferencia para una muestra Bioestadística con SPSS
I. Arostegui, A. Bilbao 48
Inferencia para una muestra Bioestadística con SPSS
La Estadística inductiva nos proporciona métodos adecuados para aceptar o rechazar las
hipótesis -siempre en términos probabilísticos-, basándose para ello en los datos
recogidos a partir de una muestra representativa de la población.
La hipótesis nula, indicada por H0, es la hipótesis que desea ser contrastada. La
hipótesis alternativa, indicada por H1, es la negación o hipótesis complementaria de
H0.
El propósito del experimento es decidir si la prueba tiende a apoyar o a refutar la
hipótesis nula. Cuando se formulan H0 y H1 debemos tener en cuenta tres afirmaciones:
1. La hipótesis nula es la hipótesis de la “no diferencia”. En términos prácticos esto
quedaría recogido en la afirmación de que la igualdad forma parte de H0.
2. Se ha de hacer todo lo posible por detectar o fundamentar la hipótesis alternativa.
Es decir, llamar H1 a su teoría de investigación preconcebida.
3. Las hipótesis estadísticas se formulan siempre con la esperanza de que sea posible
rechazar H0 y, por lo tanto, aceptar H1.
Una vez que se selecciona la muestra y se recogen los datos, debe tomarse una decisión,
es decir, rechazar H0 o dejar de hacerlo. La decisión se toma observando el valor de
algún estadístico, denominado estadístico del contraste o estadístico pivote, cuya
distribución es conocida. Si el valor del estadístico cuando H0 es cierta difiere de lo
esperado, rechazaremos la hipótesis nula a favor de la alternativa; en caso contrario, no
rechazaremos la hipótesis nula. Esto significa que al final del estudio nos vemos
forzosamente en una de las situaciones representadas en la siguiente tabla.
Estado real
H0 H1
No rechazar H0 es cierta y no se H1 es cierta, pero no se
H0 rechaza. rechaza H0.
Decisión Decisión correcta Error de tipo II.
Rechazar H0 H0 es cierta pero se H1 es cierta y se rechaza
rechaza. H0.
Error de Tipo I Decisión correcta.
I. Arostegui, A. Bilbao 49
Inferencia para una muestra Bioestadística con SPSS
I. Arostegui, A. Bilbao 50
Inferencia para una muestra Bioestadística con SPSS
Ejemplo 5.3: Continuamos con los datos presentados en el ejemplo 5.1. Realizamos un
contraste de hipótesis para comprobar si se sostiene la hipótesis del investigador.
El contraste de hipótesis que se plantea es el siguiente:
H0: µ = 12
H1: µ ≠ 12
La siguiente tabla muestra los resultados obtenidos con SPSS:
I. Arostegui, A. Bilbao 51
Inferencia para una muestra Bioestadística con SPSS
Valor de prueba = 12
95% Intervalo de
confianza para la
Diferencia diferencia
t gl Sig. (bilateral) de medias Inferior Superior
HOMOCIS -,380 54 ,706 -,200 -1,258 ,857
I. Arostegui, A. Bilbao 52
Inferencia para una muestra Bioestadística con SPSS
I. Arostegui, A. Bilbao 53
Inferencia para dos medias independientes Bioestadística con SPSS
6.1. INTRODUCCIÓN
En el capítulo anterior se ha desarrollado la metodología necesaria para realizar
inferencia en una única población. Sin embargo, en los estudios médicos surge
frecuentemente el problema de comparar dos poblaciones. El caso más simple es el que
tenemos cuando queremos comparar la media de una variable o característica en dos
poblaciones independientes. Esto es lo que coloquialmente se conoce como cruzar una
variable continua con una variable dicótoma o analizar si existe una relación
estadísticamente significativa entre una variable continua y otra dicótoma. Vemos un
ejemplo donde estaríamos ante esta situación.
Ejemplo 6.1: se realiza un estudio de prácticas de prescripción. El propósito es analizar
la prescripción de digoxina, un fármaco importante y comúnmente utilizado que es
potencialmente tóxico. Se sabe que, generalmente, el nivel de dosificación para los
pacientes que están por encima de los sesenta y cuatro años de edad debería ser menor
que el de personas más jóvenes. Para llevar a cabo este estudio, se extraen muestras
independientes de ambos grupos o poblaciones (mayores de sesenta y cuatro años y
menores de esta edad) y se obtiene el nivel de dosificación de digoxina para cada
paciente seleccionado. La pregunta que se plantea en este estudio es si el nivel medio de
digoxina utilizado en pacientes mayores de sesenta y cuatro años es menor que el
utilizado en pacientes más jóvenes. Es decir, si utilizamos el subíndice 1 para pacientes
mayores de sesenta y cuatro años y el subíndice 2 para pacientes con sesenta y cuatro
años o menos, ¿es µ1 < µ2?.
Las siguientes secciones desarrollan la metodología necesaria para responder a
preguntas científicas de este tipo, en base a diferentes hipótesis o supuestos teóricos.
I. Arostegui, A. Bilbao 54
Inferencia para dos medias independientes Bioestadística con SPSS
I. Arostegui, A. Bilbao 55
Inferencia para dos medias independientes Bioestadística con SPSS
tp =
(X 1 − X2)
1 1
sp +
n1 n 2
cuya distribución, bajo el supuesto de que H0 es verdad, es una t con n1 + n2 – 2 grados
de libertad.
El cálculo del p-valor se realizará igual que en los casos anteriores
Contraste con cola a la derecha: p = P(tk > tp).
Contraste con cola a la izquierda: p = P(tk < tp).
Contraste con dos colas: p = 2⋅P(tk > | tp |).
Siendo k = n1 + n2 – 2.
6.2.2. VARIANZAS DISTINTAS
En esta sección se presentan técnicas para estimación por intervalos de confianza y para
contraste de hipótesis suponiendo que las varianzas poblacionales son distintas.
Si cuando se comparan las varianzas de la población se detecta una diferencia resulta
inapropiado promediarlas. Tomando como base el resultado teórico del apartado
anterior y sustituyendo, en este caso cada varianza poblacional por su estimador
tenemos que el estadístico
(X 1 − X 2 ) − (µ1 − µ 2 )
s12 s 22
+
n1 n 2
sigue una distribución t.
El número de grados de libertad puede estimarse a partir de los datos. Se han sugerido
varios métodos para hacerlo. El que se muestra aquí es el procedimiento de Smith-
Satterthwaite. De acuerdo con éste, el número de grados de libertad es γ y viene dado
por la expresión
I. Arostegui, A. Bilbao 56
Inferencia para dos medias independientes Bioestadística con SPSS
2
s12 s 22
+
γ = n1 n 2
(
s12 / n1 ) (
2
+
s 22 / n 2
2
)
n1 − 1 n2 − 1
Si este valor no es entero se redondea al entero más próximo por defecto, de forma que
optamos siempre por la solución más conservadora.
Entonces un intervalo de confianza del (1 - α)100% de µ1 − µ2 viene dado por
s2 s2 s2 s2
I µ1−1 α− µ 2 = x1 − x 2 − tα / 2;γ ⋅ 1 + 2 , x1 − x 2 + tα / 2;γ ⋅ 1 + 2
n1 n2 n1 n2
Los contrastes de hipótesis para la comparación de medias son los descritos en la
sección anterior, solo que el estadístico pivote es ahora
tp =
(X 1 − X2)
s12 s 22
+
n1 n 2
cuya distribución bajo el supuesto de que H0 es verdad es una t con γ grados de libertad.
El cálculo del p-valor se realizará igual que en el caso anterior.
El SPSS está diseñado para realizar ambos tipos de análisis, es tarea del investigador
decidir cuál de los dos contrastes es el apropiado. Las herramientas computacionales
hacen el trabajo de cálculo por usted, no interpretan los resultados.
I. Arostegui, A. Bilbao 57
Inferencia para dos medias independientes Bioestadística con SPSS
I. Arostegui, A. Bilbao 58
Inferencia para dos medias independientes Bioestadística con SPSS
apropiado para comparar medias. (J. S. Milton. Estadística para Biología y Ciencias de
la Salud. Interamericana-McGraw-Hill, 1994).
Regla práctica para comparar σ 12 y σ 22 : Sean S12 y S 22 las varianzas de dos muestras
extraídas de distribuciones normales. Supongamos que s12 ≥ s 22 . Entonces, si s12 / s 22 ≥ 2,
suponemos que σ 12 ≠ σ 22 .
Esta regla es bastante tolerante, no queremos usar un estadístico para comparar medias
que suponga que σ 12 = σ 22 , si existe el más ligero indicio de que esa suposición no es
cierta.
La inferencia en lo que respecta a la comparación de dos medias poblacionales se ha
establecido ante el supuesto de poblaciones normal con varianzas desconocidas. Habría
que realizar tres puntualizaciones al respecto. En primer lugar, al igual que en lo
establecido en el caso de inferencia para una media, si la varianzas de la poblaciones
son conocidas, se podrán obtener resultados similares utilizando el estadístico pivote
(X 1 − X2)
σ 12 σ 22
+
n1 n2
que seguirá una distribución normal estandarizada. En segundo lugar, para valores de n1
y n2 grandes (≥ 30) la distribución del estadístico pivote podrá considerarse normal
estandarizada sustituyendo las varianzas poblaciones por sus estimadores. En tercer
lugar, para tamaños de muestra pequeños, es cuando la distribución t es absolutamente
necesaria y hay que recordar que la teoría se ha desarrollado partiendo de la hipótesis de
normalidad.
Ejemplo 6.2: Para realizar el estudio descrito en el ejemplo 6.1 se analizaron dos
muestras de pacientes. Se obtuvo una muestra de 41 pacientes con una edad superior a
los 64 años y otra muestra de 29 pacientes con 64 o más años de edad. Analizadas
ambas muestras con respecto al nivel de digoxina administrado a estos pacientes se
obtuvieron los siguientes datos:
I. Arostegui, A. Bilbao 59
Inferencia para dos medias independientes Bioestadística con SPSS
tp =
(X 1 − X2)
=
0.265 − 0.268
= -0.1476
2 2
s s 0.0104 0.0046
1
+ 2 +
n1 n 2 41 29
+
) (
s 22 / n 2
2
)
n1 − 1 n2 − 1
El p-valor sería p = P(t40 < -0.1476) ≈ P(Z < -0.1476) = P(Z > 0.1476) = 0.44 > 0.05. Es
decir, no podemos rechazar la hipótesis nula. Por tanto, estos datos no aportan evidencia
estadística sobre la hipótesis establecida de que el nivel medio de digoxina utilizado en
pacientes mayores de sesenta y cuatro años es menor que el utilizado en pacientes más
jóvenes.
I. Arostegui, A. Bilbao 60
Inferencia para dos medias independientes Bioestadística con SPSS
Variable continua a analizar la media Variable dicótoma para hacer los grupos
Debemos definir también los valores de la variable de agrupación, en este caso
codificados como 0 (control )y 1 (caso).
Continuando con el proceso, los resultados obtenidos de SPSS son las dos tablas
siguientes:
Estadísticos de grupo
I. Arostegui, A. Bilbao 61
Inferencia para dos medias independientes Bioestadística con SPSS
Prueba de Levene
para la igualdad de
varianzas Prueba T para la igualdad de medias
95% Intervalo de
confianza para la
Diferencia Error típ. de diferencia
F Sig. t gl Sig. (bilateral) de medias la diferencia Inferior Superior
TRI Se han asumido
1,774 ,186 -2,484 103 ,015 -30,63 12,329 -55,080 -6,178
varianzas iguales
No se han asumido
-2,532 94,286 ,013 -30,63 12,098 -54,649 -6,609
varianzas iguales
Estadístico pivote = 1.774 y p = 0.186. Por tanto, como p > 0.05, no se rechaza la
igualdad de varianzas.
Ante este resultado, a la hora de realizar el contraste de igualdad de medias, debemos
fijarnos únicamente en la línea etiquetada como “Se han asumido varianzas iguales”
para realizar el contraste de igualdad de medias, del cual obtenemos los siguientes
resultados:
Estadístico pivote = –2.484 y p = 0.015. Por tanto, como p < 0.05, se rechaza H0 y por
tanto, podemos decir que existen diferencias estadísticamente significativas en el nivel
medio de triglicéridos entre casos y controles.
Este mismo resultado podríamos haberlo obtenido fijándonos en el intervalo de
confianza para la diferencia de medias: (-55.08, -6.18). Este intervalo no contiene al
cero, por tanto con un nivel de confianza del 95% admitimos que las dos medias
podrían ser diferentes.
Ejemplo 6.4: Queremos comprobar si hay diferencia de precisión entre dos materiales
volumétricos empleados habitualmente en el laboratorio. Para medir un volumen de 25
mL de agua destilada, a 20º, se utiliza tanto una pipeta aforada de 25 mL, como una
probeta de 100mL. Asumiendo que dentro de los márgenes de error de la medida 1 g
corresponde a 1 mL, han sido realizadas diferentes medidas con los dos materiales.
I. Arostegui, A. Bilbao 62
Inferencia para dos medias independientes Bioestadística con SPSS
Estadísticos de grupo
La segunda tabla nos muestra los resultados del contraste de hipótesis. Por tanto, con un
nivel de significación del 5%, podemos afirmar que existen diferencias significativas en
la precisión de ambos materiales.
Prueba de
Levene para la
igualdad de
95% Intervalo de
No se han asumido
-,064 5,035 ,952 -,00733 ,11531 -,30314 ,28848
varianzas iguales
I. Arostegui, A. Bilbao 63
Análisis de la varianza Bioestadística con SPSS
7.1. INTRODUCCIÓN
En el capítulo 6 hemos visto métodos para comparar la media de dos poblaciones.
Ahora ampliamos los métodos vistos en ese capítulo a más de dos poblaciones. El
término análisis de la varianza hace referencia a un procedimiento analítico por el que
se subdivide la variación total en la magnitud de una determinada respuesta en
componentes que pueden atribuirse a algún origen reconocible y utilizarse para
contrastar hipótesis de interés.
I. Arostegui, A. Bilbao 64
Análisis de la varianza Bioestadística con SPSS
tratamiento recibido. Están estudiándose tres tratamientos; de este modo el factor está
investigándose en tres niveles. El experimento implica k niveles de dicho factor. El
término completamente aleatorio se refiere a que las k muestras son independientes unas
de otras. El término efectos fijos expresa que el experimentador selecciona
específicamente los niveles del factor implicados, por que considera que estos tienen un
interés especial. No se seleccionan aleatoriamente de un grupo más grande de niveles
posibles. En el ejemplo, el propósito del experimento es comparar los tres tratamientos
específicos. Los tratamientos no han sido seleccionados aleatoriamente de un gran
grupo de tratamientos disponibles contra el acné.
Los datos recogidos en un experimento de un único factor se registran
convenientemente en el siguiente formato
Nivel de factor
1 2 3 ... k
X11 X21 X31 … Xk1
X12 X22 X32 … Xk2
X13 X23 X33 … Xk3
… … … … …
X 1n1 X 1n2 X 1n3 … X 1nk
k
Además, ni es el tamaño de la muestra extraída de la i-ésima población y N = ∑n
i =1
i
designa el número total de respuestas. Además, Xij tal que i = 1, 2, ..., k y j =1, 2, ..., ni
es una variable aleatoria que indica la respuesta de la j-ésima unidad experimental al i-
ésimo nivel del factor.
Al utilizar datos muestrales para comparar medias poblacionales, se requieren ciertos
estadísticos:
ni
Ti· = ∑X
j =1
ij = Suma total de las respuestas en el nivel i-ésimo (i = 1, 2, ..., k)
Ti ·
X i· = = Media muestral para el nivel i-ésimo (i = 1, 2, ..., k)
ni
k ni k
T·· = ∑∑ X ij = ∑ Ti· = Suma total de las respuestas
i =1 j =1 i =1
T··
X ·· = = Media muestral de todas las respuestas
N
k ni
∑∑ X
i =1 j =1
2
ij = Suma de los cuadrados de cada respuesta
I. Arostegui, A. Bilbao 65
Análisis de la varianza Bioestadística con SPSS
I. Arostegui, A. Bilbao 66
Análisis de la varianza Bioestadística con SPSS
j = 1, 2, …, ni
Al término (Xij − X i· ) se le denomina habitualmente residuo y representa la parte
aleatoria del modelo.
Partiendo de esta expresión del modelo se obtiene lo que se llama la identidad de la
suma de cuadrados o descomposición de la variabilidad.
k ni k k ni
∑ ∑(X ij − X ·· ) = ∑ ni ( X i· − X ·· ) + ∑∑ ( X ij − X i · ) 2
2 2
i =1 j =1 i =1 i =1 j =1
I. Arostegui, A. Bilbao 67
Análisis de la varianza Bioestadística con SPSS
Tratamiento
I II III
48.6 50.8 68.0 71.9 67.5 61.4
49.4 47.1 67.0 71.5 62.5 67.4
50.1 52.5 70.1 69.9 64.2 65.4
49.8 49.0 64.5 68.9 62.5 63.2
50.6 46.7 68.0 67.8 63.9 61.2
68.3 68.9 64.8 60.5
62.3
Los valores observados de los estadísticos son:
T1· = Suma de las respuestas al tratamiento I = 48.6 + … + 46.7 = 494.6
T2· = Suma de las respuestas al tratamiento II = 68.0 + … + 68.9 = 824.8
T3· = Suma de las respuestas al tratamiento I II = 67.5 + … + 60.5 = 826.8
T1· 494.6
X 1· = = Media muestral de las respuestas al tratamiento I = = 49.46
n1 10
T2· 824.8
X 2· = = Media muestral de las respuestas al tratamiento II = = 68.73
n2 12
T3· 826.8
X 3· = = Media muestral de las respuestas al tratamiento III = = 63.60
n3 13
T·· = Suma total de las respuestas = 2146.2
T·· 2146.2
X ·· = = Media muestral de todas las respuestas = = 61.32
N 35
Las medias muestrales observadas muestran diferencias aparentes en la respuesta media,
al menos del tratamiento I respecto de los otros dos. Veamos si estas diferencias
observadas son estadísticamente significativas. Es decir, vemos si estos datos apoyan la
hipótesis de que el porcentaje medio de mejoría varía según el tratamiento recibido
(H1), o si por el contrario, podemos asumir que la mejoría es independiente del
tratamiento recibido (H0).
Estos datos dan como resultado la siguiente tabla de descomposición de la variabilidad
(Tabla ANOVA):
I. Arostegui, A. Bilbao 68
Análisis de la varianza Bioestadística con SPSS
I. Arostegui, A. Bilbao 69
Análisis de la varianza Bioestadística con SPSS
En este cuadro de dialogo puedo solicitar también un gráfico de las medias por grupos.
Los resultados ofrecidos por el SPSS vienen resumidos en las siguientes tablas
Descriptivos
Porcentaje de mejoría
Intervalo de confianza para
la media al 95%
Desviación Límite
N Media típica Error típico Límite inferior superior Mínimo Máximo
1 10 49,4600 1,73218 ,54776 48,2209 50,6991 46,70 52,50
2 12 68,7333 2,00061 ,57753 67,4622 70,0045 64,50 71,90
3 13 63,6000 2,22224 ,61634 62,2571 64,9429 60,50 67,50
Total 35 61,3200 8,16008 1,37931 58,5169 64,1231 46,70 71,90
Porcentaje de mejoría
Suma de Media
cuadrados gl cuadrática F Sig.
Inter-grupos 2133,665 2 1066,833 262,019 ,000
Intra-grupos 130,291 32 4,072
Total 2263,956 34
I. Arostegui, A. Bilbao 70
Análisis de la varianza Bioestadística con SPSS
Porcentaje de mejoría
Estadístico
de Levene gl1 gl2 Sig.
,491 2 32 ,616
Finalmente, una tercera tabla nos muestra el contraste de igualdad de varianzas, que se
ha pedido de forma adicional, para comprobar que la hipótesis de igualdad de varianzas
exigida por el método es razonable. Observamos un valor p = 0.616 > 0.05 que nos lleva
a no rechazar la igualdad de varianzas en los tres tratamientos.
I. Arostegui, A. Bilbao 71
Análisis de la varianza Bioestadística con SPSS
iguales. Aunque SPSS realiza una variación, que puede también usarse para tamaños
distintos de los grupos.
7.3.3. MÉTODO DE SCHEFFÉ
Se puede usar cualesquiera que sean los tamaños de las muestras, iguales o no, y es
probablemente el método más difundido. Aunque hay que tener en cuenta, que para
tamaños de grupo iguales o similares, es más conservador que la prueba de Tukey.
7.3.4. MÉTODO DE DUNCAN
Es uno de los más antiguos y probablemente el más citado en la bibliografía.
Inicialmente fue diseñado para muestras iguales, pero C.Y. Kramer lo amplió
posteriormente para muestras de tamaño distinto.
Ejemplo 7.4: Volviendo a los datos del experimento definido en el ejemplo 7.1, hemos
visto en el ejemplo 7.3 que los tres tratamientos difieren en el porcentaje medio de
mejoría registrado al final de las 16 semanas de tratamiento.
Una vez rechazada la igualdad en el nivel de mejoría para los tres tratamientos, nos
preguntamos entre qué tratamientos existen diferencias. Este contraste se solicita
mediante el botón Post Hoc del cuadro de diálogo principal.
I. Arostegui, A. Bilbao 72
Análisis de la varianza Bioestadística con SPSS
TRI
Intervalo de confianza para
la media al 95%
Desviación Límite
N Media típica Error típico Límite inferior superior Mínimo Máximo
No 29 99,72 50,398 9,359 80,55 118,89 33 255
Ex 20 116,25 40,214 8,992 97,43 135,07 49 208
Si 56 139,20 74,044 9,895 119,37 159,03 40 418
Total 105 123,92 64,645 6,309 111,41 136,43 33 418
Una primera tabla descriptiva nos indica tres grupos bastante distintos en cuanto a
tamaño (29 no fumadores, 20 ex-fumadores y 56 fumadores) y en cuanto a nivel medio
I. Arostegui, A. Bilbao 73
Análisis de la varianza Bioestadística con SPSS
140
130
120
110
Media de TRI
100
90
No Ex Si
FUMAR
Parece que existe una tendencia al aumento en el nivel medio de triglicéridos, para
fumadores y ex-fumadores, comparados con no fumadores.
ANOVA
TRI
Suma de Media
cuadrados gl cuadrática F Sig.
Inter-grupos 31223,008 2 15611,504 3,948 ,022
Intra-grupos 403384,382 102 3954,749
Total 434607,390 104
Una segunda tabla nos proporciona los resultados del contraste de igualdad de medias.
Vemos que p < 0.5 y por tanto rechazamos la hipótesis de que el nivel de triglicéridos es
independiente del consumo de tabaco.
Prueba de homogeneidad de varianzas
TRI
Estadístico
de Levene gl1 gl2 Sig.
1,883 2 102 ,157
I. Arostegui, A. Bilbao 74
Análisis de la varianza Bioestadística con SPSS
Comparaciones múltiples
Sin embargo, si observamos los resultados de las pruebas de rango nos muestran
resultados diferentes según que método aplicamos.
El método de Tukey identifican dos grupos homogéneos: uno de ellos formado por los
fumadores y otro por los no fumadores, pudiendo estar los fumadores en uno u otro
indistintamente. Es decir, si quisiéramos crean una variable dicótoma para el consumo
de tabaco a partir de estos resultados, podríamos incluir a los ex-fumadores con
cualquiera de los otros dos grupos.
El método de Scheffé identifica un único grupo homogéneo, es decir no detecta
diferencias en el nivel medio de triglicéridos en función del consumo de tabaco (p =
0.06). Ya hemos comentado anteriormente que este método es más conservador que el
de Tukey, es por eso que diferencias estadísticamente significativas para uno no lo son
para el otro.
TRI
I. Arostegui, A. Bilbao 75
Análisis de la varianza Bioestadística con SPSS
nos indican que las diferencias significativas están entre fumadores y no fumadores (p =
0.026). Pero, las pruebas de los rangos nos muestran que existe un único grupo
homogéneo (p = 0.06). Esta diferencia en los resultados es debida a que es más “fácil”
detectar diferencias entre dos grupos que establecer grupos homogéneos con una
diferencia significativa entre ellos. Es decir, los contrastes que se realizan en cada caso
no son equivalentes. En este caso, las diferencias entre fumadores y no fumadores se
establecen con un valor p muy cercano al nivel de significación, p = 0.026. De forma
que cuando el nivel de exigencia del contraste aumenta lo más mínimo este valor p pasa
a ser de p = 0.06, no significativo. Otra cuestión a tener en cuenta ante incongruencias
de este tipo es el tamaño muestral, a más muestra mayor potencia en el contraste y por
tanto, menor valor p.
Como ya hemos mencionado anteriormente, el investigador debe decidir qué método
utilizar en cada caso y limitarse a los resultados obtenidos con el método seleccionado.
Centrarnos en la búsqueda de la significación con diferentes métodos va en
contradicción con la propia filosofía de los contrastes múltiples. Mediante éstos, se
intenta evitar el problema de encontrar relaciones significativas por puro azar (5%) al
realizar muchos contrastes. Si solicitamos muchos contrastes, para muchos métodos,
este problema, lejos de solucionarse, se acentúa.
I. Arostegui, A. Bilbao 76
Regresión lineal y correlación Bioestadística con SPSS
8.1. INTRODUCCIÓN
La correlación consiste en medir la fuerza de la relación lineal existente entre dos
variables aleatorias continuas. La regresión, sin embargo, implica necesariamente la
obtención de una ecuación mediante la cual pueda estimarse el valor medio de una
variable aleatoria (variable dependiente o respuesta), desde el conocimiento de los
valores tomados por una o más variables diferentes (variables independientes,
explicativas o covariables). Ambos conceptos están estrechamente relacionados,
especialmente cuando hablamos de regresión lineal simple, es decir cuando se considera
una única variable explicativa.
La regresión lineal simple fue introducida como técnica estadística a finales del siglo
XIX por Sir Francis Galton. Galton estaba interesado en la relación entre la altura de un
padre y la altura de sus hijos. Como muestra la siguiente figura, los hombres altos
tienden a tener hijos también altos. Aunque la altura media de los hijos es menor que la
altura media de los padres
Datos de Galton
76
74
Altura del hijo (pulgadas)
72
70
68
66
64
62
50 55 60 65 70 75 80
I. Arostegui, A. Bilbao 77
Regresión lineal y correlación Bioestadística con SPSS
I. Arostegui, A. Bilbao 78
Regresión lineal y correlación Bioestadística con SPSS
ambas variables. Dado lo avanzado del software, no hay razón para no hacer una
representación gráfica de los datos antes de aventurarse a realizar ningún análisis.
Una vez realizado el gráfico de la nube de puntos de Y respecto de X, se observa si es
aceptable que esta nube de puntos representa más o menos una recta. Si esto es así,
podemos decir que ajustar estos datos por medio de una recta es razonable.
Ejemplo 8.2: Cuando se realizó el experimento descrito en el ejemplo 8.1, se obtuvieron
los siguientes datos. Recordamos que se recogen el nivel de glucosa en sangre medido
por un paciente diabético utilizando la varilla (X) y en el laboratorio (Y) en minimoles
por litro.
x y x y x y x y
1.3 2.4 3.2 4.4 7.0 7.7 15.0 14.9
2.0 3.0 3.6 4.3 8.0 8.0 15.0 13.8
2.4 2.3 3.7 4.3 8.0 10.0 17.5 17.6
2.6 3.0 3.7 5.0 10.0 10.0 18.7 17.5
2.5 2.2 3.8 4.4 10.2 9.5 6.0 6.0
2.6 2.4 4.4 4.5 10.2 11.2 8.7 8.8
2.7 2.5 4.3 5.0 12.5 11.0 5.6 5.7
3.0 3.8 5.0 4.5 11.3 13.0 9.1 9.0
3.7 2.5 5.0 6.2 13.0 13.1 16.2 12.5
3.7 3.5 6.3 6.2 14.5 13.8 9.0 14.0
La nube de puntos recogida en el siguiente gráfico se obtiene señalando los valores de la
variable independiente X a lo largo del eje horizontal y los de la variable dependiente Y
a lo largo del eje vertical. Incluso si estos puntos no están sobre una línea recta, hay una
tendencia lineal. La tendencia es lo que estamos buscando. Por tanto, el método de
regresión lineal simple es aplicable a este problema.
Nivel de glucosa
20
18
16
14
12
10
6
Laboratorio
0
0 2 4 6 8 10 12 14 16 18 20
Varilla
I. Arostegui, A. Bilbao 79
Regresión lineal y correlación Bioestadística con SPSS
I. Arostegui, A. Bilbao 80
Regresión lineal y correlación Bioestadística con SPSS
esta forma estamos determinando la línea recta que está tan próxima como sea posible a
todos los datos puntuales simultáneamente. Intuitivamente, por medio de este método se
pretende minimizar la suma de distancias verticales de cada punto a la recta de
regresión.
Una vez estimados los parámetros de la recta de regresión, obtenemos una expresión
para el modelo estimado
Y = β̂ 0 + β̂ 1 X + e
(Y = Parte sistemática + Parte aleatoria)
El modelo estimado tiene la misma forma que el modelo teórico, solo que en este caso
los valores de β̂ 0 y β̂ 1 son conocidos, pues pueden calcularse a través de los valores
obtenidos de X e Y.
Denotamos la recta de regresión estimada de Y sobre X por la siguiente expresión:
ŷ i = β̂ 0 + β̂ 1 x
Esta recta nos permite calcular los valores esperados o valores medios de Y, que se
denotan ŷ i , en función de los valores de X.
La estimación del error se denomina residuo, se denota por ei y mide la distancia entre
un dato puntual y el valor estimado por la recta de regresión, ei = y i − yˆ i . Los residuos
son en el modelo ajustado el equivalente a los errores en el modelo poblacional.
Las propiedades de los valores esperados nos permitirán responder a preguntas
científicas sobre la relación entre la covariable y la variable respuesta. Las propiedades
de los residuos nos permitirán juzgar la adecuidad del modelo ajustado y las hipótesis
del modelo aleatorio.
La suma de los cuadrados de las diferencias entre los datos puntuales y la recta de
regresión ajustada se denota por SSE y no es sino la suma de los cuadrados de los
residuos.
n n
SSE = ∑ ei2 = ∑ ( y i − ( βˆ 0 + βˆ1 xi )) 2
i =1 i =1
El método de estimación por mínimos cuadrados establece cuales son los valores de β̂ 0
y β̂ 1 que minimizan la expresión anterior. Estos valores se denominan estimadores
mínimo cuadráticos de los parámetros de regresión y son:
βˆ o = y − βˆ1 x
n
∑ (x i − x )( y i − y )
βˆ1 = i =1
n
∑ (x
i =1
i − x) 2
I. Arostegui, A. Bilbao 81
Regresión lineal y correlación Bioestadística con SPSS
1 x 2
DE ( β 0 ) = σ
ˆ ˆ 2
+
n n 2
∑
i =1
( xi − x )
σˆ 2
DE ( βˆ1 ) = n
∑ (x
i =1
i − x)2
∑e 2
i
SSE
σˆ 2 = i =1
=
n−2 n−2
Hemos obtenido estimaciones puntuales de β0 y β1 por medio de β̂ 0 y β̂ 1 . De la misma
forma que para cualquier otro parámetro, podemos deducir los intervalos de confianza
del (1 - α)100% de β0 y β1 a partir de las expresiones dadas para la desviación estándar
de β̂ 0 y β̂ 1 .
σˆ 2
I β11−α = β̂ 1 ± tα/2; (n –2) n
∑ (x
i =1
i − x)2
1 x 2
I β1−0 α = β̂ 0 ± tα/2; (n –2) σˆ 2 + n
n 2
∑i =1
( xi − x )
I. Arostegui, A. Bilbao 82
Regresión lineal y correlación Bioestadística con SPSS
donde tα/2; (n –2) es el valor crítico de una distribución t de Student con n−2 grados de
libertad. Es decir el valor que deja hacia su derecha un área de α/2 bajo la curva de la
distribución t de Student con (n – 2) grados de libertad..
8.3.4. TABLA ANOVA Y CONTRASTES DE REGRESIÓN
Existe una técnica de análisis de la varianza que se utiliza para comprobar si una línea
recta muestra una cantidad significativa de la variabilidad observada de Y. La tabla del
análisis de la varianza (tabla ANOVA) para el modelo de regresión lineal simple es la
siguiente:
Modelo 1 SS ( x) = ∑ ( yˆ i − y ) 2
i =1
n
I. Arostegui, A. Bilbao 83
Regresión lineal y correlación Bioestadística con SPSS
βˆ 1
t obs =
DE (βˆ 1 )
que sigue una distribución t de Student con n − 2 grados de libertad.
2 P (t n − 2 > t obs ) si t obs > 0
Es decir, p =
2 P (t n − 2 < t obs ) si t obs < 0
Observación: Los dos contrastes anteriores son equivalentes.
I. Arostegui, A. Bilbao 84
Regresión lineal y correlación Bioestadística con SPSS
Suma de Media
Modelo cuadrados gl cuadrática F Sig.
1 Regresión 762,149 1 762,149 520,568 ,000a
Residual 55,635 38 1,464
Total 817,784 39
a. Variables predictoras: (Constante), X
b. Variable dependiente: Y
Coeficientes
Coeficientes no estandarizad Intervalo de confianza para
estandarizados os B al 95%
Límite
Modelo B Error típ. Beta t Sig. Límite inferior superior
1 (Constante) ,858 ,352 2,440 ,019 ,146 1,570
X ,912 ,040 ,965 22,816 ,000 ,832 ,993
a. Variable dependiente: Y
La segunda tabla nos ofrece las estimaciones de los parámetros, junto con sus
desviaciones estándar, su significación y su intervalo de confianza. Vemos que un
aumento de una unidad en el nivel de glucosa medido por la varilla está asociado a un
aumento medio de 0.912 en el nivel de glucosa real, siendo este aumento
estadísticamente significativo (p < 0.05) y estando con una confianza del 95% entre
0.832 y 0.993. La interpretación del término independiente sería el nivel de glucosa real
esperado cuando la medición de la varilla es cero, el cual no tiene mucho interés.
8.5. CORRELACIÓN
Hemos estudiado la forma de predecir los valores de una variable Y en función de los
valores de otra variable X. A menudo, el interés reside en conocer si existe o no relación
I. Arostegui, A. Bilbao 85
Regresión lineal y correlación Bioestadística con SPSS
entre las dos variables. Si lo que se está buscando es la existencia o no de una relación
lineal, el parámetro a utilizar es el coeficiente de correlación.
8.5.1 COEFICIENTE DE CORRELACIÓN LINEAL
La medida de asociación lineal entre dos variables más frecuentemente utilizada es el
coeficiente de correlación lineal de Pearson. Este parámetro se define en términos de
covarianza entre X e Y, que es una medida de la forma en que X e Y varían
conjuntamente. Sin embargo este parámetro no está acotado, puede asumir cualquier
valor real. Para corregir este problema, dividimos la covarianza de X e Y entre el
producto de sus desviaciones estándar. De esta forma el coeficiente de correlación
lineal de Pearson entre X e Y se define de la siguiente forma:
Cov ( X , Y )
ρ=
Var ( X )·Var (Y )
Debemos tener en cuenta que Cov(X, Y), Var(X) y Var(Y), y por tanto también ρ, son
parámetros teóricos. Consecuentemente, no pueden calcularse sin el conocimiento de la
distribución de probabilidad de las variables X e Y. El problema estadístico es estimar
sus valores a partir de un conjunto de datos.
Sean (yi, xi) n pares de mediciones para i=1, 2, ..., n. Donde yi representa el valor de la
variable respuesta Y, y xi representa el valor de la covariable o variable explicativa X. La
estimación de ρ, coeficiente de correlación lineal de Pearson entre X e Y, a la que se
designa r, es el siguiente
n
∑ (x i − x )( y i − y )
r = ρ̂ = i =1
n n
∑ (x ∑ (y
2 2
i
− x) i
− y)
i =1 i =1
x -2 -1 0 1 2
y 4 1 0 1 4
I. Arostegui, A. Bilbao 86
Regresión lineal y correlación Bioestadística con SPSS
escala presentada aquí no es “la ley”, solo es una interpretación sugerida. Los
coeficientes de correlación son, en cierta medida, dependientes del objeto en cuestión.
En experimentos con seres humanos o en estudios de campo observacionales,
habitualmente se observan coeficientes de correlación bastante bajos. Sin embargo,
estos valores bajos aún pueden ser considerados altamente informativos para el experto
en la materia.
En experimentos de laboratorio biológico o químico controlados cuidadosamente, se
puede esperar que los coeficientes de correlación sean muy altos. Por ejemplo, en
química analítica, durante el estudio de las calibraciones y la verificación del métodos
dentro de determinados intervalos, se obtienen linealidades muy buenas. A menudo se
habla del número de nueves que presenta el coeficiente r encontrado. Así, es posible
calificar de ajuste muy deficiente una r entre 0.9 y 0.99, o exigir que r supere el valor
0.999 para considerar un ajuste aceptable.
No hay que olvidar nunca que una alta correlación entre x e y puede ser debida a: una
relación causal real entre x e y; a una tercera variable que afecta a ambas, x e y; o
incluso a que la muestra obtenida es muy extraña, y en realidad x e y no están
relacionadas.
Los paquetes estadísticos que calculan r, generalmente incluyen un contraste de
significación de ρ de la forma:
H0: ρ = 0
H1: ρ ≠ 0
Este contraste debe verse con precaución. Sólo comprueba si X e Y están o no
correlacionados. De ninguna forma contrasta si la correlación que existe tiene alguna
importancia práctica. Para un conjunto de datos grande, se puede comprobar que una
correlación de 0.05 es diferente de cero. Sin embargo, cómo hemos mencionado
anteriormente, esta correlación se considera débil. Verá en artículos de investigación
que ciertas correlaciones son estadísticamente significativas. Esto generalmente
significa que se ha realizado el contraste anterior y se ha rechazado H0: la correlación no
es cero. Sin embargo, usted puede juzgar por sí mismo desde el punto de vista del
contenido si la correlación tiene o no algún sentido práctico.
El procedimiento de SPSS que nos permite realizar un análisis de correlación es
>Analizar >Correlaciones >Bivariadas. En el cuadro de diálogo únicamente debemos
seleccionar las variables entre las cuales queremos estudiar la correlación. La opción
Pearson calculará el coeficiente de correlación lineal de Pearson. La opción Prueba de
significación realizará el contraste de hipótesis mencionado anteriormente sobre la
significación del coeficiente de correlación.
Ejemplo 8.5: Continuamos con los datos del ejemplo 8.1. Supongamos ahora, que
queremos estudiar la correlación lineal entre las dos mediciones de glucosa en sangre, la
medida por el paciente diabético utilizando la varilla y la medida en el laboratorio.
La siguiente tabla muestra el cuadro de diálogo utilizado para realizar un análisis de
regresión con SPSS.
I. Arostegui, A. Bilbao 87
Regresión lineal y correlación Bioestadística con SPSS
El resultado ofrecido por SPSS es una única tabla, donde aparece la matriz de
correlaciones entre las variables X e Y. Los datos que aparecen son el coeficiente de
correlación lineal de Pearson observado, 0.965 y su significación (p < 0.05), además del
tamaño de la muestra analizada (n = 40). Estos datos indican que la correlación
existente entre ambos métodos de medición del nivel de glucosa en sangre es muy alta.
Es decir, parece razonable pensar que la precisión del método de medición mediante la
varilla es estadísticamente significativa.
Correlaciones
X Y
X Correlación de Pearson 1 ,965**
Sig. (bilateral) . ,000
N 40 40
Y Correlación de Pearson ,965** 1
Sig. (bilateral) ,000 .
N 40 40
**. La correlación es significativa al nivel 0,01
(bilateral).
8.5.2. COEFICIENTE DE DETERMINACIÓN
Volviendo al modelo de regresión lineal simple, veamos cuál es la relación entre el
método descrito y el coeficiente de correlación de Pearson.
El supuesto de linealidad se ha dado por válido a la hora de calcular la recta de
regresión de Y sobre X. Necesitamos un método analítico para determinar la bondad de
ajuste de la línea recta a los datos puntuales. El coeficiente de determinación es un
estadístico que se utiliza para evaluar la fuerza de la relación lineal existente entre X e Y,
tanto en una determinación de regresión como de correlación.
Si ajustamos el modelo de regresión lineal simple de Y sobre X, la proporción de
variabilidad en Y explicada por X viene dada por la siguiente expresión
2
n
SS ( x) Variación de Y debida a la linealidad
∑i =1
( x i − x )( y i − y )
= = =r
2
∑ ( x i − x ) 2 ∑ ( y i − y ) 2
i =1 i =1
donde r es el coeficiente de correlación lineal de Pearson entre X e Y.
I. Arostegui, A. Bilbao 88
Regresión lineal y correlación Bioestadística con SPSS
Vemos que el valor de r = 0.965 coincide con el que hemos calculado en el ejemplo 8.5.
El coeficiente de determinación R2 = 0.932 y el coeficiente de determinación ajustado,
ligeramente menor, R 2 = 0.930. Este resultado me indica que la medición de nivel de
glucosa en sangre efectuada por el paciente con la varilla recoge el 93% de la
variabilidad existente en la medición de laboratorio.
I. Arostegui, A. Bilbao 89
Regresión lineal y correlación Bioestadística con SPSS
20
15
10
5
Desv. típ. = ,99
Media = 0,00
0 N = 40,00
-4,00 -3,00 -2,00 -1,00 0,00 1,00 2,00 3,00 4,00
Residuos estandarizados
I. Arostegui, A. Bilbao 90
Regresión lineal y correlación Bioestadística con SPSS
1
Residuos estandarizados
0
-1
-2
-3
0 10 20
I. Arostegui, A. Bilbao 91
Regresión lineal y correlación Bioestadística con SPSS
I. Arostegui, A. Bilbao 92
Regresión lineal y correlación Bioestadística con SPSS
σˆ 1 1 ( y0 − y ) 2
DE ( x0 ) = + +
βˆ1 m n ˆ2 n
β (x − x)2
1 ∑
i =1
i
Ejemplo 8.8: Una aplicación real del método de regresión lineal por mínimos cuadrados
consiste en la determinación de la concentración de quinina en bebidas refrescantes de
tónica empleando valores de absorbancia. Para obtener los valores de la siguiente tabla
se analizan una serie de patrones de concentración de quinina. Cada patrón da lugar a
I. Arostegui, A. Bilbao 93
Regresión lineal y correlación Bioestadística con SPSS
una absorbancia que se mide, respecto a un blanco (solución que no contiene analito),
mediante un espectrofotómetro de radiación ultravioleta.
Patrón (µg/mL) Absorbancia
5 0,0705
10 0,1743
20 0,3155
30 0,4957
40 0,7145
50 0,8729
60 1,0642
Una tabla resumen del modelo de regresión lineal simple nos permita calcular la
sensibilidad o pendiente de la recta, 0.018 y su intervalo de confianza del 95 % (0.017,
0.019) y la señal del blanco u ordenada en el origen –0.024 y su intervalo de confianza
del 95 % (-0.057, 0.009). También podemos calcular el valor del coeficiente de
correlación r = 0.999, calificando el ajuste como muy bueno.
Variable dependiente:Absorbancia
I. Arostegui, A. Bilbao 94
Regresión lineal y correlación Bioestadística con SPSS
Podemos también calcular cuantos microgramos de quinina por mililitro contiene una
bebida de tónica de una muestra problema cuya absorbancia es de 0.5136 de la siguiente
manera: x0 = (0.5136 + 0.024) / 0.018 = 29.87. Para calcular un intervalo de confianza a
esta concentración de quinina utilizamos las formulas anteriores
0.0178817 1 (0.5136 − 0.529657) 2
DE ( x0 ) = + = 0.6855
0.018 7 0.018·2521.428
I x00.95 = (x0 − t 0.025;7 ⋅ DE ( x0 ), x0 + t 0.025;7 ⋅ DE ( x0 ) ) =
= (29.87 − 2.571·0.6855,29.87 + 2.571·0.6855) =
= (28.11,31.63)
I. Arostegui, A. Bilbao 95
Regresión lineal y correlación Bioestadística con SPSS
5 5
4 4
3 3
2 2
1
1
FEV
FEV
0
0
40 50 60 70 80
0 10 20
ALTURA
EDAD
Por tanto, vamos a asumir que la relación del FEV con la edad y la altura puede
resumirse mediante una ecuación del tipo:
FEV = β0 + β1·EDAD + β2·ALTURA + ε
Veamos cuales son las estimaciones de los parámetros β0, β1 y β2 a partir de los datos de
la muestra. Realizamos un análisis de regresión lineal múltiple en SPSS, incluyendo las
dos variables que deseamos introducir como independientes.
I. Arostegui, A. Bilbao 96
Regresión lineal y correlación Bioestadística con SPSS
Suma de Media
Modelo cuadrados gl cuadrática F Sig.
1 Regresión 376,245 2 188,122 1067,956 ,000a
Residual 114,675 651 ,176
Total 490,920 653
a. Variables predictoras: (Constante), ALTURA, EDAD
b. Variable dependiente: FEV
Observamos un valor p < 0.05. Por tanto, rechazamos la hipótesis nula y afirmamos que
la importancia de la edad y la altura en la estimación del nivel medio del FEV es
estadísticamente significativa.
Pero, podría ocurrir que no fuera necesario utilizar ambas variables, sino que una de
ellas fuera suficiente para estimar el nivel medio de FEV, siendo la otra innecesaria.
Este hecho lo contrastaremos realizando un contraste de significación de ambos
parámetros individualmente.
La segunda tabla que nos ofrece el SPSS nos ofrece las estimaciones de los parámetros,
junto con sus desviaciones estándar, su significación y su intervalo de confianza.
Coeficientesa
Coeficientes
Coeficientes no estandarizad Intervalo de confianza para
estandarizados os B al 95%
Límite
Modelo B Error típ. Beta t Sig. Límite inferior superior
1 (Constante) -4,610 ,224 -20,558 ,000 -5,051 -4,170
EDAD 5,428E-02 ,009 ,185 5,961 ,000 ,036 ,072
ALTURA ,110 ,005 ,722 23,263 ,000 ,100 ,119
a. Variable dependiente: FEV
I 95 %
β EDAD = (0.036, 0.072)
I 95 %
β 0 = (-5.051,-4.170)
I. Arostegui, A. Bilbao 97
Regresión lineal y correlación Bioestadística con SPSS
La interpretación de β̂ 0 no tiene sentido en este caso (FEV esperado para un niño con
altura = 0 y edad = 0).
Si realizamos el contraste de hipótesis
H0: βALTURA = 0
H1: βALTURA ≠ 0
Como p = 0 < 0.05 se rechaza la hipótesis nula y podemos decir que la influencia de la
altura sobre el FEV es significativa. Es decir, un aumento de una pulgada en la altura,
produce un aumento medio de 0.11 litros en el FEV, para valores fijos de la edad
(ajustando por edad). Este aumento está entre 0. 100 y 0. 119 litros con un nivel de
confianza del 95%.
Si realizamos el contraste de hipótesis
H0: βEDAD = 0
H1: βEDAD ≠ 0
Como p = 0 < 0.05 se rechaza la hipótesis nula y podemos decir que la influencia de la
edad sobre el FEV es significativa. Es decir, un aumento de un año en la edad, produce
un aumento medio de 0.0543 litros en el FEV, para valores fijos de la altura (ajustando
por altura). Este aumento está entre 0. 036 y 0. 072 litros con un nivel de confianza del
95%.
La tercera tabla nos proporciona el coeficiente de determinación, crudo y corregido, que
en este caso coinciden. R2 = 0.8752 = 0.766 y por tanto, la altura y la edad
conjuntamente explican el 76.6% de la variabilidad existente en el FEV.
Resumen del modelob
I. Arostegui, A. Bilbao 98
Regresión lineal y correlación Bioestadística con SPSS
I. Arostegui, A. Bilbao 99
Regresión lineal y correlación Bioestadística con SPSS
I 95 %
β EDAD = (0.04356, 0.07917)
I 95%
β MUJER = (-0.226,-0.0961)
Podría ocurrir que no fuera necesario utilizar todas las variables para estimar el nivel
medio de FEV. Veamos cuál es el resultado de los contrastes de significación de los
parámetros.
Si realizamos el contraste de hipótesis
H0: βALTURA = 0
H1: βALTURA ≠ 0
Como p = 0 < 0.05 se rechaza la hipótesis nula y podemos decir que la influencia de la
altura sobre el FEV es significativa. Es decir, un aumento de una pulgada en la altura,
produce un aumento medio de 0.105 litros en el FEV, para valores fijos de la edad y el
sexo (ajustando por edad y sexo). Este aumento está entre 0.095 y 0.114 litros con un
nivel de confianza del 95%.
Si realizamos el contraste de hipótesis
H0: βEDAD = 0
H1: βEDAD ≠ 0
Como p = 0 < 0.05 se rechaza la hipótesis nula y podemos decir que la influencia de la
edad sobre el FEV es significativa. Es decir, un aumento de un año en la edad, produce
un aumento medio de 0.0614 litros en el FEV, para valores fijos de la altura y el sexo
(ajustando por altura y sexo). Este aumento está entre 0.0436 y 0.0792 litros con un
nivel de confianza del 95%.
Si realizamos el contraste de hipótesis
H0: βMUJER = 0
H1: βMUJER ≠ 0
Como p = 0 < 0.05 se rechaza la hipótesis nula y podemos decir que la influencia del
sexo sobre el FEV es significativa. Es decir, el valor medio del FEV es 0.161 litros
menor en las mujeres que en los hombres, para valores fijos de la altura y la edad
(ajustando por altura y edad). Esta diferencia está entre 0.096 y 0.226 litros con un nivel
de confianza del 95%.
Por tanto vemos que las tres variables tienen una influencia significativa en el FEV de
los niños. Además, el coeficiente de determinación es R2 = 0.775 y el coeficiente de
determinación corregido R 2 = 0.774. Por tanto, la altura, la edad y el sexo
conjuntamente explican el 77% de la variabilidad existente en el FEV.
Al igual que se ha comentado en el modelo de regresión lineal múltiple, el modelo
lineal general es un método de análisis estadístico muy potente que proporciona
resultados mucho más sofisticados que los expuestos en este texto. Lo aquí expuesto
debe tomarse únicamente de referencia y ejemplo de utilización de esta técnica. Si se
desea realizar un experimento donde se van a utilizar este tipo de técnicas de análisis se
sugiere contactar con un experto en análisis de datos.
9.1. INTRODUCCIÓN
A menudo deseamos estudiar simultáneamente dos variables aleatorias categóricas. Para
ello se construye una tabla de doble entrada. Esta tabla contiene r filas, donde r es el
número de respuestas posibles de la primera variable, y s columnas, donde s es el
número de respuestas posibles de la segunda variable. De esta forma, una tabla de doble
entrada tiene r×s categorías o celdas. Generalmente, en la tabla se incluye la
información concerniente a las frecuencias absolutas y frecuencias relativas o
porcentajes. En los márgenes de la tabla también se incluye la distribución marginal de
cada variable.
Una tabla de este tipo nos sirve, en primer lugar, para describir la relación entre dos
variables categóricas, por medio del número o porcentaje de individuos perteneciente a
cada subgrupo creado de la combinación de las categorías de ambas variables. Vamos a
ilustrar la manera de describir e interpretar este tipo de datos mediante un ejemplo.
Ejemplo 9.1: Se realiza un estudio para determinar si existe asociación entre el grupo
sanguíneo y las úlceras duodenales. Se selecciona una muestra de 1301 pacientes con
úlcera duodenal y 6313 controles sanos y se determina el grupo sanguíneo de cada uno.
La siguiente tabla de doble entrada muestra la distribución cruzada de estas dos
variables.
Grupo sanguíneo
0 A B AB
Pacientes 698 (53.65) 472 (36.28) 102 (7.84) 29 (2.23) 1301 (17.09)
Controles 2892 (45.81) 2625 (41.58) 570 (9.03) 226 (3.58) 6313 (82.91)
3590 (47.15) 3097 (40.68) 672 (8.83) 255 (3.35) 7614
Los valores entre paréntesis son los porcentajes sobre el total en los márgenes de la
tabla. La muestra está formada por un 17% de pacientes y un 83% de controles. La
distribución global del grupo sanguíneo es de 47% del grupo 0, 41% del A, 9% del B y
3% del AB. En el interior de la tabla sin embargo, los porcentajes corresponden a cada
fila. En los pacientes, la distribución del grupo sanguíneo es de 54% del grupo 0, 36%
del A, 8% del B y 2% del AB. Mientras que en los controles, la distribución del grupo
sanguíneo es de 46% del grupo 0, 41% del A, 9% del B y 4% del AB.
Una tabla de este tipo nos proporciona una imagen descriptiva de la relación entre
ambas variables. La pregunta natural que surge a la vista de estos datos es: ¿hay
asociación entre el grupo sanguíneo y las úlceras duodenales? La respuesta a esta
pregunta sería positiva, si se viera una distribución diferente del grupo sanguíneo entre
los casos y los controles. Es decir, si viéramos que los porcentajes de ambas filas son
diferentes. La siguiente pregunta que nos hacemos es: ¿cómo de diferentes han de ser
los porcentajes para afirmar que existe asociación entre ambas variables? La respuesta a
esta pregunta vendrá dada en los apartados posteriores de este capítulo, estableciendo el
contraste de hipótesis necesario para contrastar si la asociación entre dos variables
categóricas es estadísticamente significativa.
Factor B
1 2 3 … s
1 o11 o12 o13 … o1s f1·
2 o21 o22 o23 … o2s f2·
Factor A
M M M M M M M
donde,
• oij : frecuencia observada en la celda ij.
• z·1, z·2, z·3,…, z·s : Totales marginales por columnas, representan el total
acumulado en cada columna. Es decir,
z·j = o1j+ o2j + o3j +…+ orj tal que j = 1,2,…,s
• f1·, f2·, f3·,…, fr· : Totales marginales por filas, representan el total acumulado en
cada fila. Es decir,
fi·= oi1+ oi2 + oi3 +…+ ois tal que i = 1,2,…,r
• n: Tamaño de la muestra observada.
El procedimiento para obtener una tabla de contingencia en SPSS es >Analizar
>Estadísticos descriptivos > Tablas de contingencia. En el cuadro de diálogo deben
indicarse las variables que deseamos representar en las filas y las columnas
respectivamente.
El botón Casillas nos permite indicar cuales son los valores que deseamos observar en
las celdas de la tabla, por defecto únicamente aparecen las frecuencias observadas. El
botón Formato nos permite ordenar las filas en orden ascendente o descendente, según
los valores que toma la variable. El botón Estadísticos nos permite realizar contrastes de
hipótesis, lo cuál desarrollaremos en posteriores apartados de este capítulo.
Ejemplo 9.2: Continuando con los datos del ejemplo 9.1, veamos como utilizar el SPSS
para representar estos datos en una tabla.
En primer lugar debemos prestar especial atención a la forma de introducir los datos en
el ordenador cuando estos aparecen en forma de tabla de doble entrada. En el capítulo 1
se ha descrito la forma correcta de introducir los datos en SPSS, cuando se dispone de
datos desglosados por individuo. En este caso, como es muy común en datos de estas
características, los datos están agrupados en los subgrupos resultantes de cruzar las
categorías de ambas variables. En la siguiente figura se muestra la forma correcta de
introducir estos datos en SPSS.
Se crean dos variables, una representando al grupo sanguíneo y la otra representando la
presencia de enfermedad. Se crea una variable adicional, denominada PESO,
representando el número de individuos en cada grupo. Posteriormente se utiliza el
procedimiento Ponderar casos, descrito en el apartado cinco del capítulo 3, para
ponderar las observaciones mediante la variable PESO. De esta forma, el SPSS entiende
que hay 2892 individuos como el primero, 698 como el segundo y así sucesivamente.
Una vez que tenemos las datos correctamente introducidos y ponderados, procedemos a
realizar la tabla. Vemos en el cuadro de diálogo, que también se pueden solicitar
gráficos descriptivos de estos datos, activando la opción Mostrar los gráficos de barras
agrupadas.
Grupo sanguineo
0 A B AB Total
Presencia de Caso Recuento 698 472 102 29 1301
enfermedad % de Presencia de
53,7% 36,3% 7,8% 2,2% 100,0%
enfermedad
% de Grupo sanguineo 19,4% 15,2% 15,2% 11,4% 17,1%
% del total 9,2% 6,2% 1,3% ,4% 17,1%
Control Recuento 2892 2625 570 226 6313
% de Presencia de
45,8% 41,6% 9,0% 3,6% 100,0%
enfermedad
% de Grupo sanguineo 80,6% 84,8% 84,8% 88,6% 82,9%
% del total 38,0% 34,5% 7,5% 3,0% 82,9%
Total Recuento 3590 3097 672 255 7614
% de Presencia de
47,1% 40,7% 8,8% 3,3% 100,0%
enfermedad
% de Grupo sanguineo 100,0% 100,0% 100,0% 100,0% 100,0%
% del total 47,1% 40,7% 8,8% 3,3% 100,0%
En esta tabla observamos los mismos datos que en la tabla que se ha ofrecido en el
ejemplo 9.1, pero además aparecen una serie de porcentajes adicionales. En cada celda,
observamos los porcentajes totales, por filas y por columnas. Por ejemplo, en la primera
celda, observamos que el 53.7% de los pacientes pertenece al grupo sanguíneo 0, el
19.4% de los individuos del grupo sanguíneo 0 están enfermos; y el 9.2% de los
individuos están enfermos y tienen grupo sanguíneo 0.
En los laterales de la tabla, aparece el mismo porcentaje repetido, que indica el % de
individuos sobre el total y el 100% que indica la suma de los correspondientes
porcentajes por filas o columnas, respectivamente.
Sobrepeso
Éxito precoz Si No
Si 162 (170) 263 (255) 425
No 38 (30) 37 (45) 75
200 300 500
Todas las frecuencias esperadas cumplen la condición de ser mayores que 5. El valor
observado del estadístico es el siguiente
2 2 (o ij − eij ) 2 2 2 oij2 162 2 263 2 38 2 37 2
χ = ∑∑
2
= ∑∑ − n = + + + − 500 = 4.18
45
p
j =1 i =1 eij j =1 i =1 eij 170 255 30
Vemos que el valor del estadístico y el p-valor coinciden con los calculados
anteriormente.
9.3.2. PRUEBA DE HOMOGENEIDAD
Supongamos ahora que los totales marginales por filas están fijados por el investigador,
mientras que por columnas son aleatorios. Esta situación aparece cuando hay más de
una población a estudio. Estamos interesados en una característica particular y
queremos responder a la pregunta ¿es igual la proporción de objetos con la misma
característica en todas las poblaciones? Si no hay asociación entre la característica y la
población a la cual pertenece un determinado individuo, entonces la proporción con la
característica debería ser la misma en cada caso. Si hay asociación las proporciones
deberían ser diferentes.
La forma del contraste de hipótesis es la siguiente:
H0: La proporción con la característica es la misma en cada población.
H1: La proporción con la característica varía por población.
Estamos realizando un contraste para ver si las poblaciones de las que se extrajeron
muestras son iguales en el sentido de que la proporción de objetos con la característica
es la misma en cada población.
La realización analítica del contraste es exactamente igual a la prueba de independencia.
La única diferencia entre ambas pruebas reside en el diseño del experimento y en la
formulación de las hipótesis nula y alternativa.
Ejemplo 9.4: Analizamos ahora los datos del ejemplo 9.1. Se realiza un estudio para
determinar si existe asociación entre el grupo sanguíneo y las úlceras duodenales. Se
selecciona una muestra de 1301 pacientes y 6313 controles y se determina el grupo
sanguíneo de cada uno de ellos. El contraste a realizar es el siguiente:
H0: No hay diferencias entre el grupo sanguíneo de los controles y de los enfermos.
H1: Hay diferencias entre el grupo sanguíneo de los controles y de los enfermos.
Sig. asintótica
Valor gl (bilateral)
Chi-cuadrado de Pearson 29,122a 3 ,000
Razón de verosimilitud 29,559 3 ,000
N de casos válidos 7614
a. 0 casillas (,0%) tienen una frecuencia esperada inferior a 5.
La frecuencia mínima esperada es 43,57.
Vemos que el p-valor ofrecido por SPSS es < 0.0001 (motivo por el cual aparece como
0.000)
9.3.3. PRUEBA EXACTA DE FISHER
Hemos mencionado anteriormente que para que las pruebas de independencia u
homogeneidad puedan realizarse utilizando el estadístico ji-cuadrado, las muestras han
de ser grandes. El umbral se ha puesto en que todas las frecuencias esperadas deben ser
mayores que 5. Esta condición es muy estricta, se puede ser menos severo y exigir que
todas las frecuencias esperadas sean mayores que 1 y no más del 20% sean menores que
5. (J. S. Milton. Estadística para Biología y Ciencias de la Salud. Interamericana-
McGraw-Hill, 1994). En el caso particular de una tabla 2×2 estas cifras orientativas se
alcanzan sólo cuando ninguna frecuencia esperada es menor que 5. Si esto no se
cumple, existe una prueba llamada prueba exacta de Fisher para realizar el contraste
de independencia u homogeneidad de forma exacta.
La prueba exacta de Fisher se basa en la distribución hipergeométrica y consiste en
calcular la probabilidad de obtener una tabla tan rara o más rara que la obtenida. Para
ello se construyen todas las tablas con frecuencias observadas menores que la menor
frecuencia observada y se calcula la probabilidad de obtener cada una de ellas. La suma
de todas estas probabilidades será la probabilidad de obtener una tabla tan rara o más
rara que la observada y es el p-valor del contraste. El proceso es analíticamente
complejo, aunque en la actualidad este cálculo se realiza de forma automática en la
mayoría de los paquetes estadísticos cuando se detectan frecuencias esperadas bajas. El
SPSS lo realiza únicamente para tablas 2×2.
Ejemplo 9.5: Se realiza un estudio sobre los pacientes con una edad comprendida entre
50 y 54 años que han fallecido a lo largo del último mes. Los investigadores han
obtenido resultados para pacientes que han fallecido debido a una enfermedad
cardiovascular y pacientes que han fallecido por otras causas. De las 35 personas que
han fallecido debido a una enfermedad cardiovascular 5 seguían una dieta baja en sal.
De las 25 que han fallecido por otras causas 2 llevaban una dieta baja en sal. Se trata de
estudiar la posible dependencia entre el tipo de dieta y el fallecimiento por enfermedad
cardiovascular.
El contraste que debemos plantear sería el siguiente:
H0: No hay relación entre el tipo de dieta y la causa de fallecimiento.
H1: Hay relación entre el tipo de dieta y la causa de fallecimiento.
Si analizamos estos datos usando el SPSS obtenemos la siguiente tabla de resultados.
Vemos que hay frecuencias esperadas inferiores a 5, por ejemplo e21 =2.9. Es decir, no
podemos usar la prueba ji-cuadrado para el contraste. Nótese que el SPSS avisa de la
existencia de estas frecuencias inferiores a 5.
El resultado en el cual nos debemos fijar para realizar el contraste es el del test exacto
de Fisher con un valor de p = 0.688. Por tanto, no podemos rechazar la hipótesis nula y
no existe evidencia suficiente para suponer que el tipo de dieta influye en el riesgo de
muerte por enfermedad cardiovascular.
DIETA
Baja en sal Alta en sal Total
Enfermedad Enfermedad Recuento 5 30 35
Cardiovascular Frecuencia esperada 4,1 30,9 35,0
Otras enfermedades Recuento 2 23 25
Frecuencia esperada 2,9 22,1 25,0
Total Recuento 7 53 60
Frecuencia esperada 7,0 53,0 60,0
Pruebas de chi-cuadrado
El coeficiente Phi es una medida del grado de asociación entre dos variables
dicotómicas. Está basado en el estadístico Ji-cuadrado. Toma valores entre cero y uno.
Valores próximos a cero indican no asociación entre las variables y valores próximos a
uno indican una asociación fuerte.
El coeficiente de contingencia es una extensión del coeficiente Phi al caso de que al
menos una de las dos variables presente más de dos categorías. Toma valores entre cero
y Cmax donde, si r y s son el número de categorías de cada una de las dos variables:
min(r − 1, c − 1)
C max =
1 + min(r − 1, c − 1)
Valores próximos a cero indican no asociación, y valores próximos a Cmax (será siempre
inferior a 1), asociación fuerte.
El estadístico V de Cramer es otra extensión del coeficiente Phi. Toma valores entre
cero y uno. Tiende a subestimar el grado de asociación entre las variables. Valores de V
próximos a cero indican no asociación, y valores próximos a uno indican una asociación
fuerte.
Los estadísticos Lambda, Tau de Kruskal y Goodman y el coeficiente de
incertidumbre son medidas de asociación que reflejan la reducción proporcional en el
error cuando se utilizan los valores de la variable independiente para pronosticar los
valores de la variable dependiente. Todos ellos toman valores entre cero y uno. Un valor
igual a uno indica que la variable independiente pronostica perfectamente la variable
dependiente. Un valor igual a cero indica que la variable independiente no ayuda en
absoluto a pronosticar la variable dependiente. La diferencia entre el estadístico Lambda
y el de Kruskal y Goodman es que el primero utiliza la categoría modal para los
pronósticos, mientras que el segundo utiliza las proporciones marginales. Por ejemplo,
un valor de 0.83 indica que el conocimiento de una variable reduce en un 83% el error
al pronosticar los valores de la otra variable. El SPSS calcula versiones simétricas y
asimétricas tanto del estadístico lambda como del coeficiente de incertidumbre.
El coeficiente Eta es una medida apropiada en el caso en que se analizan los valores de
una variable cuantitativa Y en los distintos grupos o subpoblaciones establecidos por los
valores de otra variable X cualitativa. Compara la variabilidad de la variable Y
explicada por las diferencias entre grupos con la variabilidad total de la muestra. Toma
valores entre cero y uno. Valores próximos a cero indican que el comportamiento de Y
es independiente en los grupos. Valores próximos a uno indican mucha dependencia. La
variable categórica debe ser codificada numéricamente.
Para más información sobre cómo calcular y cuando utilizar estos estadísticos se
recomienda consultar la ayuda específica del cuadro de dialogo correspondiente o el
manual de SPSS. Asimismo, se recomienda utilizar un texto de referencia para
interpretar correctamente los valores de estos estadísticos (Fleiss, 1981).
9.4. TABLAS 2 × 2
En ocasiones los factores a estudio constan ambos de dos categorías, de forma que la
tabla de contingencia resultante es lo que se denomina una tabla 2×2. Estas tablas, aún
siendo un caso particular da tablas de contingencia, tienen unas peculiaridades que
vamos a estudiar con más detalle.
9.4.1. CORRECCIÓN DE YATES
En los contrastes de independencia u homogeneidad se pretende aproximar una
distribución discreta (conteo de frecuencias) por medio de la distribución ji-cuadrado. El
error que se comete es despreciable en la mayoría de los casos. Sin embargo, en el caso
particular de una tabla 2×2, el número de grados de libertad de la tabla y por tanto del
estadístico pivote anteriormente descrito es 1, y se comete un error considerable al
s r (o ij − e ij )
2
Debemos fijarnos en los resultados que aparecen bajo el título de Corrección por
continuidad. Vemos que el valor del estadístico es de 3.676 y el valor p asociado es p =
0.055 > 0.05. Por tanto, no rechazamos la hipótesis nula, concluyendo que no existe una
relación estadísticamente significativa entre la obesidad y la precocidad en la escuela.
Obsérvese que el resultado es contrario al obtenido en el ejemplo 9.3, es decir, una
análisis incorrecto de los datos puede llevarnos a sacar conclusiones erróneas. En este
caso el análisis correcto sería éste último.
Incidencia de la enfermedad
Factor de exposición + − Total
Presente a b a+b
Ausente c d c+d
Total a+c b+d n
El riesgo de desarrollar la enfermedad entre aquellos expuestos al factor de riesgo se
estima mediante a / (a + b). De forma similar, el riesgo de desarrollar la enfermedad
entre aquellos no expuestos al factor de riesgo se estima mediante c / (c + d).
De esta forma el cociente o razón entre ambos riesgos nos ofrece una estimación del
riesgo relativo (RR) de aquellos expuestos al factor de riesgo frente a los no expuestos.
a ( a + b)
RR =
c (c + d )
Ejemplo 9.7: Supongamos que se realiza un estudio para estudiar la relación entre el
consumo de tabaco y el riesgo de apoplegía (AP) en hombres. Se selecciona una
muestra aleatoria de 7872 hombres a los que se realiza un seguimiento durante 12 años,
recogiendo el consumo de tabaco y si han padecido alguna apoplegía en este periodo de
tiempo. Los datos obtenidos se muestran en la siguiente tabla:
AP
Consumo de tabaco + − Total
Fumador 171 3264 3435
No fumador 117 4320 4437
Total 288 7584 7872
El riesgo relativo de sufrir una apoplegía durante los 12 años siguientes de un fumador
frente a un no fumador es:
171 / 3435
RR = = 1.89
117 / 4437
Es decir, un fumador tiene una predisposición de sufrir una apoplegía durante un
periodo de 12 años de casi dos veces más que un no fumador.
En un estudio retrospectivo, también denominado caso-control, el objetivo es comparar
casos y controles con respecto a la presencia de un factor de riesgo. En este tipo de
estudios el número de casos y controles, y en particular el número de controles por caso,
es fijado por el investigador al inicio del estudio. Posteriormente, se realiza una
De forma que el intervalo de confianza del 95% para el ln(OR) viene dado por:
∧ 1 1 1 1
ln( OR ) ± 1.96 + + +
a b c d
Una vez obtenidos los límites de confianza para el ln(OR), podremos obtener los
correspondientes límites de confianza del OR calculando la exponencial.
Si se desea variar el nivel de confianza, sustituyendo 1.96 por el valor crítico zα/2 en la
expresión anterior obtendremos el intervalo de confianza con un nivel (1 − α)100%.
El contraste de hipótesis para comprobar la significación estadística de la asociación
entre la enfermedad y el factor de riesgo se plantea de la siguiente manera:
H0: OR = 1
H1: OR ≠ 1
Nuevamente, se utiliza el método de Wolf y se calcula el ln(OR). El estadístico pivote
utilizado para realizar el contraste es
∧
ln(OR)
Zp =
1 1 1 1
+ + +
a b c d
que bajo el supuesto de no asociación (H0 cierta) sigue una distribución
aproximadamente normal. Por tanto, el valor p viene dado por p = 2·P(Z > | Zp |)
El botón Estadísticos del cuadro de diálogo principal de la construcción de la tabla nos
pregunta qué estadísticos deseamos calcular. Para estimar el odds ratio y su intervalo de
confianza debemos seleccionar Riesgo.
Ejemplo 9.8: Supongamos que queremos estudiar la relación entre tener cataratas y ser
diabético. Se realiza un estudio caso-control, seleccionando una muestra de 607
pacientes con cataratas y una muestra de 2011 controles. Estos individuos se clasifican,
según si padecen diabetes o no en la siguiente tabla:
Intervalo de confianza
al 95%
Valor Inferior Superior
Razón de las ventajas
2,286 1,606 3,253
para DIABETES (0 / 1)
Para la cohorte
1,286 1,123 1,474
CATARATA = 0
Para la cohorte
,563 ,452 ,700
CATARATA = 1
N de casos válidos 2618
Observamos que todos los datos ofrecidos por SPSS coinciden con los calculados
manualmente, la dificultad reside básicamente en saber localizar e interpretar los datos
que deseamos en las tablas de resultados ofrecidas por el programa.
9.4.3. MÉTODOS DE AJUSTE EN UNA TABLA 2×2
Cuando se dispone de información sobre tres o más variables categóricas, proponemos
un método de ajuste que ilustramos por medio de un ejemplo.
Ejemplo 9.9: La siguiente tabla muestra unos datos sobre edad, tensión arterial sistólica
(TAS) y prevalencia de infarto de miocardio (IM) en una muestra de pacientes.
IM
Si No
Edad ≥ 60 15 188 ∧
41 1767 OR = 3.44
< 60
TAS ≥ 140 29 711 ∧
27 1244 OR = 1.88
< 140
Total 56 1955
En esta tabla observamos que el odds ratio de padecer un IM comparando los expuestos
al factor de riesgo con los no expuestos es de 3.44 por edad (≥ 60 vs. < 60) y 1.88 por
TAS (≥ 140 vs. < 140).
Además, si observamos la distribución de la muestra por edad y TAS vemos en la
siguiente tabla que el odds ratio de tener TAS alta comparando mayores de 60 años con
menores es de 3.04.
Edad
≥ 60 < 60
TAS ≥ 140 124 616 ∧
79 1192 OR = 3.04
< 140
Total 203 1808
Si el objetivo del estudio es estudiar la relación entre la TAS y la prevalencia del IM, la
edad es un factor de confusión, pues está relacionada con ambas: enfermedad (IM) y
factor de riesgo que se desea evaluar (TAS). Es decir, el odds ratio de 1.88 relacionando
TAS y IM no solo refleja la asociación entre TAS e IM, sino también la relación entre
edad e IM.
Una manera obvia de eliminar el efecto de la edad en la relación entre TAS e IM es
realizar un análisis de los datos estratificados por edad, como se indica en la siguiente
tabla.
IM
Si No Total
Edad ≥ 60 TAS ≥ 140 9 115 124 ∧
6 73 79 OR = 0.95
TAS < 140
Total 15 188 203
Edad < 60 TAS ≥ 140 20 596 616 ∧
∧ ∑ a ·di i / ni
OR MH = i
∑ b ·c
i
i i / ni
Los resultados ofrecidos por SPSS se resumen en tres tablas. La primera tabla muestra
los datos desglosados por el factor de confusión (edad).
Tabla de contingencia TAS * IM * EDAD
Recuento
IM
EDAD Si No Total
mayor o igual que 60 TAS mayor o igual que 140 9 115 124
menor que 140 6 73 79
Total 15 188 203
menor que 60 TAS mayor o igual que 140 20 596 616
menor que 140 21 1171 1192
Total 41 1767 1808
Si además hemos seleccionado la opción Riesgo, nos ofrece los odds ratio, con sus
intervalos de confianza del 95%, para cada uno de los estratos por edad.
Estimación de riesgo
Intervalo de confianza
al 95%
EDAD Valor Inferior Superior
mayor o igual que 60 Razón de las ventajas
para TAS (mayor o igual ,952 ,325 2,787
que 140 / menor que 140)
Para la cohorte IM = Si ,956 ,354 2,581
Para la cohorte IM = No 1,004 ,926 1,087
N de casos válidos 203
menor que 60 Razón de las ventajas
para TAS (mayor o igual 1,871 1,006 3,479
que 140 / menor que 140)
Para la cohorte IM = Si 1,843 1,007 3,373
Para la cohorte IM = No ,985 ,969 1,001
N de casos válidos 1808
Comprobamos, que al igual que cuando hemos efectuado los cálculos manualmente, el
odds ratio que relaciona una TAS alta con riesgo de IM es de 0.95 (Intervalo de
confianza del 95% (0.325, 2.787)) en individuos con una edad mayor o igual que 60 y
de 1.871 (Intervalo de confianza del 95% (1.006, 3.479)) en individuos menores de 60
años.
La siguiente tabla nos realiza dos contrastes de homogeneidad para los odds ratio
calculados por estrato. Es decir, rechazar la hipótesis de homogeneidad en estos
contrastes indicaría que estamos ante la presencia de interacción entre TAS y edad.
Recordamos que si hay interacción entre edad y TAS, no es aceptable calcular una
estimación global de la asociación entre TAS y riesgo de IM.
Pruebas de homogeneidad de la razón de ventajas
Sig. asintótica
Chi-cuadrado gl (bilateral)
Breslow-Day 1,156 1 ,282
De Tarone 1,153 1 ,283
Al igual que como habíamos observado en los cálculos manuales, vemos que el odds
ratio que relaciona una TAS alta con riesgo de IM, una vez eliminado el efecto de la
edad es de 1.57, con un intervalo de confianza del 95% de (0.913, 2.694). Este intervalo
contiene el valor 1, por tanto, con un nivel de confianza del 95% podemos decir que la
asociación entre TAS y riesgo de IM, una vez eliminado el efecto de la edad, no es
estadísticamente significativa. También llegamos a la misma conclusión interpretando el
resultado del contraste de hipótesis para la significación del odds ratio ajustado; un
valor p = 0.103 > 0.05 indica que, con un nivel de significación del 5%, la asociación
entre TAS y riesgo de IM, una vez eliminado el efecto de la edad, no es
estadísticamente significativa.
Ejemplo 9.10: Supongamos que deseamos realizar un estudio para evaluar el acuerdo
entre dos profesionales a la hora de dar un diagnóstico psiquiátrico. La siguiente tabla
recoge el diagnóstico dado por cada uno de los dos evaluadores en 100 pacientes:
Evaluador B
Evaluador A Trastorno Trastorno Trastorno Total
psicótico neurótico orgánico
Trastorno psicótico 75 1 4 80
Trastorno neurótico 5 4 1 10
Trastorno orgánico 0 0 10 10
Total 80 5 15 100
Vamos a calcular los porcentajes observados y esperados bajo independencia de los
evaluadores en esta tabla.
o ii 75 4 10
Po = ∑i
= + +
n 100 100 100
= 0.89
z .i f i. 80 80 5 10 15 10
Pe = ∑i
= · + · + ·
n n 100 100 100 100 100 100
= 0.66
En este caso obtenemos un valor κ = 0.68. Por tanto, según el criterio dado por Fleiss
podemos decir que hay un acuerdo aceptable por encima del esperado por azar en el
diagnóstico dado por los dos evaluadores, siendo este acuerdo estadísticamente
significativo (p < 0.001).
Existe también una versión ponderada del estadístico kappa, donde las diferencias entre
las proporciones observadas y esperadas se ponderan para cuantificar las diferencias
relativas entre las categorías. SPSS no calcula la versión ponderada, ni tampoco calcula
intervalo de confianza para el estadístico kappa.
10.1. INTRODUCCIÓN
Recordemos que en la mayor parte de los procedimientos estadísticos introducidos hasta
ahora subyace la presunción de normalidad. Es decir, generalmente hemos supuesto que
las muestras se extráen de poblaciones que, o bien están normalmente distribuidas, o
bien están gobernadas por una distribución aproximadamente normal. Durante muchos
años, después del descubrimiento de la curva normal, quienes hacían uso de la
estadística creyeron que cualquier variable aleatoria seguía prácticamente, una
distribución normal o, al menos, una distribución que podía aproximarse bien por una
distribución normal. A medida que trataron más datos, se constató que esto no era
cierto. No obstante, investigadores en campos de investigación muy diversos deseaban
poder utilizar los importantes métodos estadísticos desarrollados por Fisher, Pearson y
Student, que presuponen normalidad. Los profanos, que no comprendían la matemática
subyacente en estas técnicas, pensaban que la hipótesis de normalidad no era
importante, que era una ley de la naturaleza, o que se cumplía siempre por alguna
sofisticada razón matemática. La mejor descripción de la situación se encuentra en las
palabras de Lippman a Poincaré (1912) (J. S. Milton. Estadística para Biología y
Ciencias de la Salud. Interamericana-McGraw-Hill, 1994):
Todos creen en ella (la ley normal de los errores de medida); me dijo Lippman un día:
“los que experimentan se figuran que es un teorema de matemáticas y los matemáticos
que es un hecho experimental”.
Hasta aquí solo hemos indicado cómo hacer una rudimentaria comprobación de la
hipótesis de normalidad mediante el diagrama de tallos y hojas o el histograma. Si estos
diagramas adoptan forma de campana, es razonable que la distribución sea normal.
Ahora bien, si queremos salir de dudas debemos realizar una prueba de contraste para
ver si hay evidencia estadística de que los datos proceden de una distribución que no es
normal.
El ajuste a una distribución normal, aunque es el más común, no es el único que es
interesante. En ocasiones queremos saber si una distribución empírica se ajusta a una
distribución teórica predeterminada, sea ésta normal o cualquier otra. Este tipo de
contrastes de hipótesis se denominan pruebas de bondad de ajuste. Consisten en realizar
una hipótesis sobre la distribución de la población y contrastar si esta hipótesis se
sostiene a través de una muestra. Se utilizan procedimientos basados en la estimación
para ver como se ajusta la distribución de unos valores obtenidos en la muestra a una
distribución teórica.
Valores de χ p2 muy grandes nos indican que hay una diferencia significativa entre lo
observado en la muestra y lo esperado bajo H0, por tanto nos llevarán a rechazar el
ajuste teórico propuesto. Para que H0 sea una hipótesis aceptable este estadístico debe
tomar valores pequeños.
El p-valor asociado es p = P( χ k2−l −1 > χ p2 ).
Observación: La siguiente fórmula permite agilizar los cálculos necesarios para obtener
el valor del estadístico pivote
Ejemplo 10.1: Se desea contrastar la hipótesis de que el número de bacterias por cada
retícula de una placa cuadriculada, cuando en ella se extiende una gota de cultivo, es
una variable aleatoria que sigue la distribución de Poisson. Para ello se extiende una
gota de la disolución del cultivo sobre una placa con 400 retículas pequeñas y se
cuentan, con el auxilio del microscopio, los números de bacterias en cada una de las
retículas.
Antes de enunciar las hipótesis necesitamos saber cuál es el parámetro de la distribución
de Poisson que queremos ajustar. Puesto que no se menciona, tendremos que estimarlo a
través de los datos. Hemos visto anteriormente que el parámetro λ de una distribución
de Poisson es su media y el estimador utilizado para la media es la media muestral. Por
tanto,
1
λ$ = x = ⋅ ∑ xi ⋅ oi = 4.68
400
H0: El número de bacterias en cada una de las retículas sigue una distribución P(4.68)
H1: El número de bacterias en cada una de las retículas no sigue una distribución
P(4.68).
La tabla anterior muestra las frecuencias observadas, las frecuencias esperadas mediante
la distribución P(4.68), los agrupamientos necesarios para conseguir que todas las
frecuencias esperadas sean mayores que 5 y una última columna para facilitar el cálculo
del estadístico pivote.
Se ha estimado un parámetro y se han agrupado categorías hasta obtener 10, por tanto el
número de grados de libertad es, k - l - 1 = 10 - 1 - 1 = 8.
El cálculo de las frecuencias esperadas se ha realizado siguiendo la distribución P(4.68)
de la siguiente manera
e −4.68 ⋅ 4.68 i
ei = n·P(X = i) = 400·
i!
donde i = 1, 2, 3,…, 15.
e −4.68 ⋅ 4.68 0
Por ejemplo, e0 = n·P(X = 0) = 400· =400·9.27·10-3 = 3.71
0!
El valor observado del estadístico pivote es
k oi2
χ 2p = ∑ − n = 404.39 - 400 = 4.39
i =1 ei
p = P( χ82 >4.39) > 0.1. Por tanto no se rechaza H0 y se acepta la hipótesis de que el
número de bacterias en cada una de las retículas sigue una distribución P(4.68).
Si utilizamos el SPSS, debemos incluir los valores esperados bajo el supuesto de que la
hipótesis nula fuera cierta. El problema está en que SPSS no acepta frecuencias
esperadas mayores que cero para valores cuya frecuencia observada sea igual a cero.
Está situación se contradice con el desarrollo del contraste, pues es una situación
Si observamos los resultados ofrecidos por SPSS, nos damos cuenta de que existen
valores esperados menores que 5 (el SPSS avisa de ello), pero no lo tiene en cuenta en
el análisis.
Numero de bacterias
Estadísticos de contraste
Numero de
bacterias
Chi-cuadradoa 4,759
gl 11
Sig. asintót. ,942
a. 2 casillas (16,7%) tienen frecuencias
esperadas menores que 5. La frecuencia
de casilla esperada mínima es 1,3.
Por tanto, esto debe ser resuelto por el analista en el proceso de análisis, es decir,
debemos recategorizar la variable para que no aparezcan valores esperados de las
frecuencias menores que 5. En este caso, debemos juntar todos los valores de la variable
mayores o iguales que 10, al igual que lo hemos hecho en el desarrollo del ejercicio sin
ayuda del SPSS.
Los resultados ofrecidos por SPSS son una primera tabla de valores observados y
esperados para las frecuencias, junto con la diferencia entre ambas (lo cual denomina
residual) y una segunda tabla con los resultados del contraste de hipótesis. En el
ejemplo obtenemos un valor del estadístico de 4.39 (igual al obtenido anteriormente) y
un valor p = 0.884 no significativo. Por tanto, no se rechaza H0 y se acepta la hipótesis
de que el número de bacterias en cada una de las retículas sigue una distribución de
Poisson. Cabe destacar el hecho de que el SPSS identifica 9 grados de libertad, mientras
que el procedimiento básico que hemos realizado a mano identifica 8 grados de libertad.
Esta diferencia radica en que los valores observados le han sido designados al
procedimiento de SPSS, por tanto desconoce el hecho de que se haya estimado un
parámetro en el proceso.
Numero de bacterias
Estadísticos de contraste
Numero de
bacterias
Chi-cuadrado a 4,388
gl 9
Sig. asintót. ,884
a. 0 casillas (,0%) tienen frecuencias
esperadas menores que 5. La frecuencia
de casilla esperada mínima es 8,7.
Estadísticos de contraste
Color de las
cobayas
Chi-cuadradoa 1,487
gl 2
Sig. asintót. ,475
a. 0 casillas (,0%) tienen frecuencias
esperadas menores que 5. La frecuencia
de casilla esperada mínima es 12,2.
La ventaja que tiene este contraste sobre la ji-cuadrado es que en el caso de ajuste de
distribuciones continuas, no necesitamos categorizar la variable, por tanto la pérdida de
información es mínima.
El procedimiento para realizar un contraste de bondad de ajuste a una distribución
mediante la prueba de Kolmogorov-Smirnov en SPSS es >Analizar >Pruebas no
paramétricas > Prueba K-S de una muestra. En el cuadro de diálogo debe indicarse la
variable que deseamos analizar.
COL
N 105
Parámetros normalesa,b Media 224,57
Desviación típica
43,673
Pruebas de normalidad
a
Kolmogorov-Smirnov Shapiro-Wilk
Estadístico gl Sig. Estadístico gl Sig.
COL ,077 105 ,143 ,983 105 ,186
a. Corrección de la significación de Lilliefors
11.1. INTRODUCCIÓN
Hemos visto en capítulos anteriores que la normalidad es necesaria, o al menos
deseable, para utilizar la mayoría de las técnicas estadísticas que se han desarrollado. La
pregunta natural a responder es ¿qué hacer cuando no se da la presunción de
normalidad? Hay dos formas de actuar. Primera: podemos intentar transformar los datos
de tal manera que tenga consistencia la presunción de normalidad. Segunda: podemos
desarrollar métodos estadísticos que presupongan poco acerca de la distribución de la
población muestreada. Tales métodos se llaman métodos de distribución libre o
métodos no paramétricos. En este capítulo se discuten algunas de las técnicas de
distribución libre más frecuentes. En particular, se incluyen procedimientos paralelos a
los ya tratados. Así dispondremos de alternativas viables para muchos procedimientos
de la teoría normal.
Los procesos estadísticos de distribución libre tienen algunas características muy
atractivas. Para utilizarlos, en ocasiones, sólo se requieren pequeños cálculos que
pueden realizarse muy rápidamente. Cuando los tamaños muestrales son pequeños (n ≤
10), es difícil detectar violaciones en los supuestos de la teoría normal, lo cual puede ser
causa de importantes efectos negativos. Sin embargo, las pruebas de distribución libre
tienen, para muestras pequeñas, una utilidad comparable a las de la teoría normal,
incluso cuando se cumplen todos los supuestos requeridos para ésta. Si éste no es el
caso, los procesos de distribución libre son, habitualmente, superiores. Por lo tanto,
salvo que se den los supuestos clásicos, para muestras pequeñas, lo más aconsejable es
elegir la prueba de distribución libre. Varios de estos métodos se basan más en el
análisis de los rangos que en las propias observaciones. Por ello, estas técnicas se
utilizan más con datos de rangos que con observaciones o recuentos.
Por tanto utilizaremos las técnicas de distribución libre o no paramétricas en los
siguientes supuestos:
• Cuando analicemos variables continuas y siendo necesario, no se cumpla el
supuesto de normalidad.
• En el análisis de variables discretas ordinales. Especialmente en escalas crudas
como: excelente, muy bien, regular, mal, muy mal.
Los principales inconvenientes de estos métodos son:
• Se basan en signos y rangos únicamente, por tanto hay una pérdida de información
importante.
• Se basan exclusivamente en el contraste de hipótesis, dejando a un lado la
estimación puntual e intervalos de confianza.
Ejemplo 11.3: Retomamos los datos descritos en el ejemplo 6.3. Se dispone de 105
pacientes, de los cuales 55 son pacientes con isquemia crónica y 50 son un grupo de
controles. Entre otras variables, se ha recogido el nivel de ácido fólico. Supongamos
que queremos saber si existen diferencias significativas en el nivel de ácido fólico entre
casos y controles.
En primer lugar realizamos un contraste de normalidad para la variable ácido fólico y
obtenemos un valor p = 0.012. Por tanto, rechazamos que la variable ácido fólico siga
una distribución normal.
FOLICO
N 104
Parámetros normales a,b Media 7,363
Desviación típica
3,339
Rangos
Rango Suma de
GRUPO N promedio rangos
FOLICO Control 49 60,69 2974,00
Caso 55 45,20 2486,00
Total 104
Estadísticos de contrastea
FOLICO
U de Mann-Whitney 946,000
W de Wilcoxon 2486,000
Z -2,615
Sig. asintót. (bilateral) ,009
a. Variable de agrupación: GRUPO
El valor p = 0.009 < 0.05. Por tanto, se rechaza la hipótesis nula. Es decir, existen
diferencias en el ácido fólico entre casos y controles.
SPSS proporciona también el estadístico U de Mann-Withney, el cual es una
transformación lineal del estadístico W de Wilcoxon. Por tanto, se trata de test
completamente equivalentes.
Observación: Si el tamaño muestral es grande (n1 > 10 y n2 > 10), podemos aproximar
la distribución de WX mediante la normal de la siguiente manera:
W1 − E (W1 )
≈ N (0,1)
Var (W1 )
2
12 k
N +1
H= ∑ ni Ri −
N ( N + 1) i =1 2
Debe utilizarse la opción Definir rango para indicar los valores que toma la variable de
indicación.
Ejemplo 11.4: Para determinar el efecto de la hemodiálisis sobre el tamaño del hígado
se estudian tres poblaciones: controles normales, pacientes renales no dializados y
pacientes dializados. Se obtienen muestras aleatorias de cada población y se utilizan
aparatos de medida para determinar el área del hígado en cm2 para cada individuo. Se
obtienen los siguientes datos (el rango de la observación viene dado entre paréntesis).
Controles normales Pacientes no dializados Pacientes dializados
206.9 (14) 194.6 (11) 288.0 (21)
150.0 (5) 145.6 (3) 269.2 (20)
197.3 (12) 174.9 (8) 288.3 (22)
173.2 (7) 187.5 (9) 357.5 (24)
147.2 (4) 223.4 (17) 229.2 (18)
143.8 (2) 143.0 (1) 249.0 (19)
192.6 (10) 170.0 (6) 346.1 (23)
216.6 (16)
202.6 (13)
213.5 (15)
Las sumas de los rangos son:
R1 = 54 (n1 = 7)
R2 = 55 (n2 = 7)
R3 = 191 (n3 = 10)
N = 24
El valor del estadístico pivote es H = 14.94 y el número de grados de libertad es k – 1 =
3 – 1 = 2.
p = P( χ 22 > 14.94) < 0.005
Por tanto se rechaza H0 y podemos concluir que existen diferencias en el tamaño del
hígado entre las tres poblaciones.
Rango
Grupo a estudio N promedio
Tamaño del higado Controles 7 7,71
Pacientes no dializados 7 7,86
Pacientes dializados 10 19,10
Total 24
Estadísticos de contrastea,b
Tamaño
del higado
Chi-cuadrado 14,936
gl 2
Sig. asintót. ,001
a. Prueba de Kruskal-Wallis
b. Variable de agrupación: Grupo a estudio
Observamos en esta última tabla un valor p = 0.001. Por tanto se rechaza H0 y podemos
concluir que existen diferencias en el tamaño del hígado entre las tres poblaciones.
Ejemplo 11.5: Continuamos con los datos del ejemplo 11.3. Se dispone de 105
pacientes, de los cuales 55 son pacientes con isquemia crónica y 50 son un grupo de
controles. Entre otras variables, se ha recogido el nivel de ácido fólico y el consumo de
tabaco (fumador, no fumador y ex-fumador). Supongamos que queremos saber si el
consumo de tabaco tiene una influencia significativa en el nivel de ácido fólico.
Como la variable ácido fólico no sigue una distribución normal debemos utilizar
pruebas no paramétricas. En este caso, se trata de comparar más de 2 muestras
independientes, en concreto 3, así que la prueba más adecuada es la prueba de Kruskal-
Wallis.
Los resultados obtenidos en SPSS se reducen a las siguientes tablas:
Rangos
Rango
TABACON N promedio
FOLICO no 29 59,50
si 55 46,63
ex 20 58,50
Total 104
Estadísticos de contrastea,b
FOLICO
Chi-cuadrado 4,440
gl 2
Sig. asintót. ,109
a. Prueba de Kruskal-Wallis
b. Variable de agrupación: TABACON
El valor p = 0.109 > 0.05. Por tanto, no se rechaza la hipótesis nula. Es decir, las tres
poblaciones no difieren respecto del ácido fólico, o lo que es lo mismo, el hábito de
fumar no influye en el nivel de ácido fólico.
+∞ 1
∫ e − z 2 dz
2
zα
2π
α
zα
zα 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09
0.0 0.5000 0.4960 0.4920 0.4880 0.4840 0.4801 0.4761 0.4721 0.4681 0.4641
0.1 0.4602 0.4562 0.4522 0.4483 0.4443 0.4404 0.4364 0.4325 0.4286 0.4247
0.2 0.4207 0.4168 0.4129 0.4090 0.4052 0.4013 0.3974 0.3936 0.3897 0.3859
0.3 0.3821 0.3783 0.3745 0.3707 0.3669 0.3632 0.3594 0.3557 0.3520 0.3483
0.4 0.3446 0.3409 0.3372 0.3336 0.3300 0.3264 0.3228 0.3192 0.3156 0.3121
0.5 0.3085 0.3050 0.3015 0.2981 0.2946 0.2912 0.2877 0.2843 0.2810 0.2776
0.6 0.2743 0.2709 0.2676 0.2643 0.2611 0.2578 0.2546 0.2514 0.2483 0.2451
0.7 0.2420 0.2389 0.2358 0.2327 0.2296 0.2266 0.2236 0.2206 0.2177 0.2148
0.8 0.2119 0.2090 0.2061 0.2033 0.2005 0.1977 0.1949 0.1922 0.1894 0.1867
0.9 0.1841 0.1814 0.1788 0.1762 0.1736 0.1711 0.1685 0.1660 0.1635 0.1611
1.0 0.1587 0.1562 0.1539 0.1515 0.1492 0.1469 0.1446 0.1423 0.1401 0.1379
1.1 0.1357 0.1335 0.1314 0.1292 0.1271 0.1251 0.1230 0.1210 0.1190 0.1170
1.2 0.1151 0.1131 0.1112 0.1093 0.1075 0.1056 0.1038 0.1020 0.1003 0.0985
1.3 0.0968 0.0951 0.0934 0.0918 0.0901 0.0885 0.0869 0.0853 0.0838 0.0823
1.4 0.0808 0.0793 0.0778 0.0764 0.0749 0.0735 0.0721 0.0708 0.0694 0.0681
1.5 0.0668 0.0655 0.0643 0.0630 0.0618 0.0606 0.0594 0.0582 0.0571 0.0559
1.6 0.0548 0.0537 0.0526 0.0516 0.0505 0.0495 0.0485 0.0475 0.0465 0.0455
1.7 0.0446 0.0436 0.0427 0.0418 0.0409 0.0401 0.0392 0.0384 0.0375 0.0367
1.8 0.0359 0.0351 0.0344 0.0336 0.0329 0.0322 0.0314 0.0307 0.0301 0.0294
1.9 0.0287 0.0281 0.0274 0.0268 0.0262 0.0256 0.0250 0.0244 0.0239 0.0233
2.0 0.0228 0.0222 0.0217 0.0212 0.0207 0.0202 0.0197 0.0192 0.0188 0.0183
2.1 0.0179 0.0174 0.0170 0.0166 0.0162 0.0158 0.0154 0.0150 0.0146 0.0143
2.2 0.0139 0.0136 0.0132 0.0129 0.0125 0.0122 0.0119 0.0116 0.0113 0.0110
2.3 0.0107 0.0104 0.0102 0.0099 0.0096 0.0094 0.0091 0.0089 0.0087 0.0084
2.4 0.0082 0.0080 0.0078 0.0075 0.0073 0.0071 0.0069 0.0068 0.0066 0.0064
2.5 0.0062 0.0060 0.0059 0.0057 0.0055 0.0054 0.0052 0.0051 0.0049 0.0048
2.6 0.0047 0.0045 0.0044 0.0043 0.0041 0.0040 0.0039 0.0038 0.0037 0.0036
2.7 0.0035 0.0034 0.0033 0.0032 0.0031 0.0030 0.0029 0.0028 0.0027 0.0026
2.8 0.0026 0.0025 0.0024 0.0023 0.0023 0.0022 0.0021 0.0021 0.0020 0.0019
2.9 0.0019 0.0018 0.0018 0.0017 0.0016 0.0016 0.0015 0.0015 0.0014 0.0014
3.0 0.0013 0.0013 0.0013 0.0012 0.0012 0.0011 0.0011 0.0011 0.0010 0.0010
3.1 0.0010 0.0009 0.0009 0.0009 0.0008 0.0008 0.0008 0.0008 0.0007 0.0007
3.2 0.0007 0.0007 0.0006 0.0006 0.0006 0.0006 0.0006 0.0005 0.0005 0.0005
3.3 0.0005 0.0005 0.0005 0.0004 0.0004 0.0004 0.0004 0.0004 0.0004 0.0003
3.4 0.0003 0.0003 0.0003 0.0003 0.0003 0.0003 0.0003 0.0003 0.0003 0.0002
3.5 0.0002 0.0002 0.0002 0.0002 0.0002 0.0002 0.0002 0.0002 0.0002 0.0002
3.6 0.0002 0.0002 0.0001 0.0001 0.0001 0.0001 0.0001 0.0001 0.0001 0.0001
α
2
0 χ α; n
α 0.995 0.99 0.98 0.975 0.95 0.90 0.10 0.05 0.025 0.02 0.01
n
1 0.000 0.000 0.001 0.001 0.004 0.016 2.706 3.841 5.024 5.412 6.635
2 0.010 0.020 0.040 0.051 0.103 0.211 4.605 5.991 7.378 7.824 9.210
3 0.072 0.115 0.185 0.216 0.352 0.584 6.251 7.815 9.348 9.837 11.345
4 0.207 0.297 0.429 0.484 0.711 1.064 7.779 9.488 11.143 11.668 13.277
5 0.412 0.554 0.752 0.831 1.145 1.610 9.236 11.070 12.832 13.388 15.086
6 0.676 0.872 1.134 1.237 1.635 2.204 10.645 12.592 14.449 15.033 16.812
7 0.989 1.239 1.564 1.690 2.167 2.833 12.017 14.067 16.013 16.622 18.475
8 1.344 1.647 2.032 2.180 2.733 3.490 13.362 15.507 17.535 18.168 20.090
9 1.735 2.088 2.532 2.700 3.325 4.168 14.684 16.919 19.023 19.679 21.666
10 2.156 2.558 3.059 3.247 3.940 4.865 15.987 18.307 20.483 21.161 23.209
11 2.603 3.053 3.609 3.816 4.575 5.578 17.275 19.675 21.920 22.618 24.725
12 3.074 3.571 4.178 4.404 5.226 6.304 18.549 21.026 23.337 24.054 26.217
13 3.565 4.107 4.765 5.009 5.892 7.041 19.812 22.362 24.736 25.471 27.688
14 4.075 4.660 5.368 5.629 6.571 7.790 21.064 23.685 26.119 26.873 29.141
15 4.601 5.229 5.985 6.262 7.261 8.547 22.307 24.996 27.488 28.259 30.578
16 5.142 5.812 6.614 6.908 7.962 9.312 23.542 26.296 28.845 29.633 32.000
17 5.697 6.408 7.255 7.564 8.672 10.085 24.769 27.587 30.191 30.995 33.409
18 6.265 7.015 7.906 8.231 9.390 10.865 25.989 28.869 31.526 32.346 34.805
19 6.844 7.633 8.567 8.907 10.117 11.651 27.204 30.144 32.852 33.687 36.191
20 7.434 8.260 9.237 9.591 10.851 12.443 28.412 31.410 34.170 35.020 37.566
21 8.034 8.897 9.915 10.283 11.591 13.240 29.615 32.671 35.479 36.343 38.932
22 8.643 9.542 10.600 10.982 12.338 14.041 30.813 33.924 36.781 37.659 40.289
23 9.260 10.196 11.293 11.689 13.091 14.848 32.007 35.172 38.076 38.968 41.638
24 9.886 10.856 11.992 12.401 13.848 15.659 33.196 36.415 39.364 40.270 42.980
25 10.520 11.524 12.697 13.120 14.611 16.473 34.382 37.652 40.646 41.566 44.314
26 11.160 12.198 13.409 13.844 15.379 17.292 35.563 38.885 41.923 42.856 45.642
27 11.808 12.878 14.125 14.573 16.151 18.114 36.741 40.113 43.195 44.140 46.963
28 12.461 13.565 14.847 15.308 16.928 18.939 37.916 41.337 44.461 45.419 48.278
29 13.121 14.256 15.574 16.047 17.708 19.768 39.087 42.557 45.722 46.693 49.588
30 13.787 14.953 16.306 16.791 18.493 20.599 40.256 43.773 46.979 47.962 50.892
n > 30 ⇒ χ α2 ,n =
1
2
(
zα + 2n − 1
2
)
α
0 tα;n
α 0.40 0.3 0.2 0.1 0.05 0.025 0.01 0.005 0.001 0.0005
n
1 0.325 0.727 1.376 3.078 6.314 12.706 31.821 63.656 318.289 636.578
2 0.289 0.617 1.061 1.886 2.920 4.303 6.965 9.925 22.328 31.600
3 0.277 0.584 0.978 1.638 2.353 3.182 4.541 5.841 10.214 12.924
4 0.271 0.569 0.941 1.533 2.132 2.776 3.747 4.604 7.173 8.610
5 0.267 0.559 0.920 1.476 2.015 2.571 3.365 4.032 5.894 6.869
6 0.265 0.553 0.906 1.440 1.943 2.447 3.143 3.707 5.208 5.959
7 0.263 0.549 0.896 1.415 1.895 2.365 2.998 3.499 4.785 5.408
8 0.262 0.546 0.889 1.397 1.860 2.306 2.896 3.355 4.501 5.041
9 0.261 0.543 0.883 1.383 1.833 2.262 2.821 3.250 4.297 4.781
10 0.260 0.542 0.879 1.372 1.812 2.228 2.764 3.169 4.144 4.587
11 0.260 0.540 0.876 1.363 1.796 2.201 2.718 3.106 4.025 4.437
12 0.259 0.539 0.873 1.356 1.782 2.179 2.681 3.055 3.930 4.318
13 0.259 0.538 0.870 1.350 1.771 2.160 2.650 3.012 3.852 4.221
14 0.258 0.537 0.868 1.345 1.761 2.145 2.624 2.977 3.787 4.140
15 0.258 0.536 0.866 1.341 1.753 2.131 2.602 2.947 3.733 4.073
16 0.258 0.535 0.865 1.337 1.746 2.120 2.583 2.921 3.686 4.015
17 0.257 0.534 0.863 1.333 1.740 2.110 2.567 2.898 3.646 3.965
18 0.257 0.534 0.862 1.330 1.734 2.101 2.552 2.878 3.610 3.922
19 0.257 0.533 0.861 1.328 1.729 2.093 2.539 2.861 3.579 3.883
20 0.257 0.533 0.860 1.325 1.725 2.086 2.528 2.845 3.552 3.850
21 0.257 0.532 0.859 1.323 1.721 2.080 2.518 2.831 3.527 3.819
22 0.256 0.532 0.858 1.321 1.717 2.074 2.508 2.819 3.505 3.792
23 0.256 0.532 0.858 1.319 1.714 2.069 2.500 2.807 3.485 3.768
24 0.256 0.531 0.857 1.318 1.711 2.064 2.492 2.797 3.467 3.745
25 0.256 0.531 0.856 1.316 1.708 2.060 2.485 2.787 3.450 3.725
26 0.256 0.531 0.856 1.315 1.706 2.056 2.479 2.779 3.435 3.707
27 0.256 0.531 0.855 1.314 1.703 2.052 2.473 2.771 3.421 3.689
28 0.256 0.530 0.855 1.313 1.701 2.048 2.467 2.763 3.408 3.674
29 0.256 0.530 0.854 1.311 1.699 2.045 2.462 2.756 3.396 3.660
30 0.256 0.530 0.854 1.310 1.697 2.042 2.457 2.750 3.385 3.646
40 0.255 0.529 0.851 1.303 1.684 2.021 2.423 2.704 3.307 3.551
50 0.255 0.528 0.849 1.299 1.676 2.009 2.403 2.678 3.261 3.496
60 0.254 0.527 0.848 1.296 1.671 2.000 2.390 2.660 3.232 3.460
80 0.254 0.526 0.846 1.292 1.664 1.990 2.374 2.639 3.195 3.416
100 0.254 0.526 0.845 1.290 1.660 1.984 2.364 2.626 3.174 3.390
200 0.254 0.525 0.843 1.286 1.653 1.972 2.345 2.601 3.131 3.340
500 0.253 0.525 0.842 1.283 1.648 1.965 2.334 2.586 3.107 3.310
∞
0.253 0.524 0.842 1.282 1.645 1.960 2.327 2.576 3.091 3.291
n1 1 2 3 4 5 6 7 8 9 10
n2 α
1 0.005 16213 19997 21614 22501 23056 23440 23715 23924 24092 24222
1 0.010 4052.2 4999.3 5403.5 5624.3 5764.0 5859.0 5928.3 5981.0 6022.4 6055.9
1 0.025 647.79 799.48 864.15 899.60 921.83 937.11 948.20 956.64 963.28 968.63
1 0.050 161.45 199.50 215.71 224.58 230.16 233.99 236.77 238.88 240.54 241.88
1 0.100 39.864 49.500 53.593 55.833 57.240 58.204 58.906 59.439 59.857 60.195
2 0.005 198.50 199.01 199.16 199.24 199.30 199.33 199.36 199.38 199.39 199.39
2 0.010 98.502 99.000 99.164 99.251 99.302 99.331 99.357 99.375 99.390 99.397
2 0.025 38.506 39.000 39.166 39.248 39.298 39.331 39.356 39.373 39.387 39.398
2 0.050 18.513 19.000 19.164 19.247 19.296 19.329 19.353 19.371 19.385 19.396
2 0.100 8.526 9.000 9.162 9.243 9.293 9.326 9.349 9.367 9.381 9.392
3 0.005 55.552 49.800 47.468 46.195 45.391 44.838 44.434 44.125 43.881 43.685
3 0.010 34.116 30.816 29.457 28.710 28.237 27.911 27.671 27.489 27.345 27.228
3 0.025 17.443 16.044 15.439 15.101 14.885 14.735 14.624 14.540 14.473 14.419
3 0.050 10.128 9.552 9.277 9.117 9.013 8.941 8.887 8.845 8.812 8.785
3 0.100 5.538 5.462 5.391 5.343 5.309 5.285 5.266 5.252 5.240 5.230
4 0.005 31.332 26.284 24.260 23.154 22.456 21.975 21.622 21.352 21.138 20.967
4 0.010 21.198 18.000 16.694 15.977 15.522 15.207 14.976 14.799 14.659 14.546
4 0.025 12.218 10.649 9.979 9.604 9.364 9.197 9.074 8.980 8.905 8.844
4 0.050 7.709 6.944 6.591 6.388 6.256 6.163 6.094 6.041 5.999 5.964
4 0.100 4.545 4.325 4.191 4.107 4.051 4.010 3.979 3.955 3.936 3.920
5 0.005 22.785 18.314 16.530 15.556 14.939 14.513 14.200 13.961 13.772 13.618
5 0.010 16.258 13.274 12.060 11.392 10.967 10.672 10.456 10.289 10.158 10.051
5 0.025 10.007 8.434 7.764 7.388 7.146 6.978 6.853 6.757 6.681 6.619
5 0.050 6.608 5.786 5.409 5.192 5.050 4.950 4.876 4.818 4.772 4.735
5 0.100 4.060 3.780 3.619 3.520 3.453 3.405 3.368 3.339 3.316 3.297
6 0.005 18.635 14.544 12.917 12.028 11.464 11.073 10.786 10.566 10.391 10.250
6 0.010 13.745 10.925 9.780 9.148 8.746 8.466 8.260 8.102 7.976 7.874
6 0.025 8.813 7.260 6.599 6.227 5.988 5.820 5.695 5.600 5.523 5.461
6 0.050 5.987 5.143 4.757 4.534 4.387 4.284 4.207 4.147 4.099 4.060
6 0.100 3.776 3.463 3.289 3.181 3.108 3.055 3.014 2.983 2.958 2.937
7 0.005 16.235 12.404 10.883 10.050 9.522 9.155 8.885 8.678 8.514 8.380
7 0.010 12.246 9.547 8.451 7.847 7.460 7.191 6.993 6.840 6.719 6.620
7 0.025 8.073 6.542 5.890 5.523 5.285 5.119 4.995 4.899 4.823 4.761
7 0.050 5.591 4.737 4.347 4.120 3.972 3.866 3.787 3.726 3.677 3.637
7 0.100 3.589 3.257 3.074 2.961 2.883 2.827 2.785 2.752 2.725 2.703
8 0.005 14.688 11.043 9.597 8.805 8.302 7.952 7.694 7.496 7.339 7.211
8 0.010 11.259 8.649 7.591 7.006 6.632 6.371 6.178 6.029 5.911 5.814
8 0.025 7.571 6.059 5.416 5.053 4.817 4.652 4.529 4.433 4.357 4.295
8 0.050 5.318 4.459 4.066 3.838 3.688 3.581 3.500 3.438 3.388 3.347
8 0.100 3.458 3.113 2.924 2.806 2.726 2.668 2.624 2.589 2.561 2.538
9 0.005 13.614 10.107 8.717 7.956 7.471 7.134 6.885 6.693 6.541 6.417
9 0.010 10.562 8.022 6.992 6.422 6.057 5.802 5.613 5.467 5.351 5.257
9 0.025 7.209 5.715 5.078 4.718 4.484 4.320 4.197 4.102 4.026 3.964
9 0.050 5.117 4.256 3.863 3.633 3.482 3.374 3.293 3.230 3.179 3.137
9 0.100 3.360 3.006 2.813 2.693 2.611 2.551 2.505 2.469 2.440 2.416
n1 11 12 15 20 24 30 40 60 120 ∞
n2 α
1 0.005 24334 24427 24632 24837 24937 25041 25146 25254 25358 25466
1 0.010 6083.4 6106.7 6157.0 6208.7 6234.3 6260.4 6286.4 6313.0 6339.5 6365.6
1 0.025 973.03 976.72 984.87 993.08 997.27 1001.4 1005.6 1009.8 1014.0 1018.3
1 0.050 242.98 243.90 245.95 248.02 249.05 250.10 251.14 252.20 253.25 254.32
1 0.100 60.473 60.705 61.220 61.740 62.002 62.265 62.529 62.794 63.061 63.328
2 0.005 199.42 199.42 199.43 199.45 199.45 199.48 199.48 199.48 199.49 199.51
2 0.010 99.408 99.419 99.433 99.448 99.455 99.466 99.477 99.484 99.491 99.499
2 0.025 39.407 39.415 39.431 39.448 39.457 39.465 39.473 39.481 39.489 39.498
2 0.050 19.405 19.412 19.429 19.446 19.454 19.463 19.471 19.479 19.487 19.496
2 0.100 9.401 9.408 9.425 9.441 9.450 9.458 9.466 9.475 9.483 9.491
3 0.005 43.525 43.387 43.085 42.779 42.623 42.466 42.310 42.150 41.990 41.829
3 0.010 27.132 27.052 26.872 26.690 26.597 26.504 26.411 26.316 26.221 26.125
3 0.025 14.374 14.337 14.253 14.167 14.124 14.081 14.036 13.992 13.947 13.902
3 0.050 8.763 8.745 8.703 8.660 8.638 8.617 8.594 8.572 8.549 8.526
3 0.100 5.222 5.216 5.200 5.184 5.176 5.168 5.160 5.151 5.143 5.134
4 0.005 20.824 20.705 20.438 20.167 20.030 19.892 19.751 19.611 19.469 19.325
4 0.010 14.452 14.374 14.198 14.019 13.929 13.838 13.745 13.652 13.558 13.463
4 0.025 8.794 8.751 8.657 8.560 8.511 8.461 8.411 8.360 8.309 8.257
4 0.050 5.936 5.912 5.858 5.803 5.774 5.746 5.717 5.688 5.658 5.628
4 0.100 3.907 3.896 3.870 3.844 3.831 3.817 3.804 3.790 3.775 3.761
5 0.005 13.491 13.385 13.146 12.903 12.780 12.656 12.530 12.402 12.274 12.144
5 0.010 9.963 9.888 9.722 9.553 9.466 9.379 9.291 9.202 9.112 9.020
5 0.025 6.568 6.525 6.428 6.329 6.278 6.227 6.175 6.123 6.069 6.015
5 0.050 4.704 4.678 4.619 4.558 4.527 4.496 4.464 4.431 4.398 4.365
5 0.100 3.282 3.268 3.238 3.207 3.191 3.174 3.157 3.140 3.123 3.105
6 0.005 10.133 10.034 9.814 9.589 9.474 9.358 9.241 9.122 9.001 8.879
6 0.010 7.790 7.718 7.559 7.396 7.313 7.229 7.143 7.057 6.969 6.880
6 0.025 5.410 5.366 5.269 5.168 5.117 5.065 5.012 4.959 4.904 4.849
6 0.050 4.027 4.000 3.938 3.874 3.841 3.808 3.774 3.740 3.705 3.669
6 0.100 2.920 2.905 2.871 2.836 2.818 2.800 2.781 2.762 2.742 2.722
7 0.005 8.270 8.176 7.968 7.754 7.645 7.534 7.422 7.309 7.193 7.076
7 0.010 6.538 6.469 6.314 6.155 6.074 5.992 5.908 5.824 5.737 5.650
7 0.025 4.709 4.666 4.568 4.467 4.415 4.362 4.309 4.254 4.199 4.142
7 0.050 3.603 3.575 3.511 3.445 3.410 3.376 3.340 3.304 3.267 3.230
7 0.100 2.684 2.668 2.632 2.595 2.575 2.555 2.535 2.514 2.493 2.471
8 0.005 7.105 7.015 6.814 6.608 6.503 6.396 6.288 6.177 6.065 5.951
8 0.010 5.734 5.667 5.515 5.359 5.279 5.198 5.116 5.032 4.946 4.859
8 0.025 4.243 4.200 4.101 3.999 3.947 3.894 3.840 3.784 3.728 3.670
8 0.050 3.313 3.284 3.218 3.150 3.115 3.079 3.043 3.005 2.967 2.928
8 0.100 2.519 2.502 2.464 2.425 2.404 2.383 2.361 2.339 2.316 2.293
9 0.005 6.314 6.227 6.032 5.832 5.729 5.625 5.519 5.410 5.300 5.188
9 0.010 5.178 5.111 4.962 4.808 4.729 4.649 4.567 4.483 4.398 4.311
9 0.025 3.912 3.868 3.769 3.667 3.614 3.560 3.505 3.449 3.392 3.333
9 0.050 3.102 3.073 3.006 2.936 2.900 2.864 2.826 2.787 2.748 2.707
9 0.100 2.396 2.379 2.340 2.298 2.277 2.255 2.232 2.208 2.184 2.159
n1 1 2 3 4 5 6 7 8 9 10
n2 α
10 0.005 12.827 9.427 8.081 7.343 6.872 6.545 6.303 6.116 5.968 5.847
10 0.010 10.044 7.559 6.552 5.994 5.636 5.386 5.200 5.057 4.942 4.849
10 0.025 6.937 5.456 4.826 4.468 4.236 4.072 3.950 3.855 3.779 3.717
10 0.050 4.965 4.103 3.708 3.478 3.326 3.217 3.135 3.072 3.020 2.978
10 0.100 3.285 2.924 2.728 2.605 2.522 2.461 2.414 2.377 2.347 2.323
11 0.005 12.226 8.912 7.600 6.881 6.422 6.102 5.865 5.682 5.537 5.418
11 0.010 9.646 7.206 6.217 5.668 5.316 5.069 4.886 4.744 4.632 4.539
11 0.025 6.724 5.256 4.630 4.275 4.044 3.881 3.759 3.664 3.588 3.526
11 0.050 4.844 3.982 3.587 3.357 3.204 3.095 3.012 2.948 2.896 2.854
11 0.100 3.225 2.860 2.660 2.536 2.451 2.389 2.342 2.304 2.274 2.248
12 0.005 11.754 8.510 7.226 6.521 6.071 5.757 5.524 5.345 5.202 5.085
12 0.010 9.330 6.927 5.953 5.412 5.064 4.821 4.640 4.499 4.388 4.296
12 0.025 6.554 5.096 4.474 4.121 3.891 3.728 3.607 3.512 3.436 3.374
12 0.050 4.747 3.885 3.490 3.259 3.106 2.996 2.913 2.849 2.796 2.753
12 0.100 3.177 2.807 2.606 2.480 2.394 2.331 2.283 2.245 2.214 2.188
13 0.005 11.374 8.186 6.926 6.233 5.791 5.482 5.253 5.076 4.935 4.820
13 0.010 9.074 6.701 5.739 5.205 4.862 4.620 4.441 4.302 4.191 4.100
13 0.025 6.414 4.965 4.347 3.996 3.767 3.604 3.483 3.388 3.312 3.250
13 0.050 4.667 3.806 3.411 3.179 3.025 2.915 2.832 2.767 2.714 2.671
13 0.100 3.136 2.763 2.560 2.434 2.347 2.283 2.234 2.195 2.164 2.138
14 0.005 11.060 7.922 6.680 5.998 5.562 5.257 5.031 4.857 4.717 4.603
14 0.010 8.862 6.515 5.564 5.035 4.695 4.456 4.278 4.140 4.030 3.939
14 0.025 6.298 4.857 4.242 3.892 3.663 3.501 3.380 3.285 3.209 3.147
14 0.050 4.600 3.739 3.344 3.112 2.958 2.848 2.764 2.699 2.646 2.602
14 0.100 3.102 2.726 2.522 2.395 2.307 2.243 2.193 2.154 2.122 2.095
15 0.005 10.798 7.701 6.476 5.803 5.372 5.071 4.847 4.674 4.536 4.424
15 0.010 8.683 6.359 5.417 4.893 4.556 4.318 4.142 4.004 3.895 3.805
15 0.025 6.200 4.765 4.153 3.804 3.576 3.415 3.293 3.199 3.123 3.060
15 0.050 4.543 3.682 3.287 3.056 2.901 2.790 2.707 2.641 2.588 2.544
15 0.100 3.073 2.695 2.490 2.361 2.273 2.208 2.158 2.119 2.086 2.059
16 0.005 10.576 7.514 6.303 5.638 5.212 4.913 4.692 4.521 4.384 4.272
16 0.010 8.531 6.226 5.292 4.773 4.437 4.202 4.026 3.890 3.780 3.691
16 0.025 6.115 4.687 4.077 3.729 3.502 3.341 3.219 3.125 3.049 2.986
16 0.050 4.494 3.634 3.239 3.007 2.852 2.741 2.657 2.591 2.538 2.494
16 0.100 3.048 2.668 2.462 2.333 2.244 2.178 2.128 2.088 2.055 2.028
17 0.005 10.384 7.354 6.156 5.497 5.075 4.779 4.559 4.389 4.254 4.142
17 0.010 8.400 6.112 5.185 4.669 4.336 4.101 3.927 3.791 3.682 3.593
17 0.025 6.042 4.619 4.011 3.665 3.438 3.277 3.156 3.061 2.985 2.922
17 0.050 4.451 3.592 3.197 2.965 2.810 2.699 2.614 2.548 2.494 2.450
17 0.100 3.026 2.645 2.437 2.308 2.218 2.152 2.102 2.061 2.028 2.001
18 0.005 10.218 7.215 6.028 5.375 4.956 4.663 4.445 4.276 4.141 4.030
18 0.010 8.285 6.013 5.092 4.579 4.248 4.015 3.841 3.705 3.597 3.508
18 0.025 5.978 4.560 3.954 3.608 3.382 3.221 3.100 3.005 2.929 2.866
18 0.050 4.414 3.555 3.160 2.928 2.773 2.661 2.577 2.510 2.456 2.412
18 0.100 3.007 2.624 2.416 2.286 2.196 2.130 2.079 2.038 2.005 1.977
n1 11 12 15 20 24 30 40 60 120 ∞
n2 α
10 0.005 5.746 5.661 5.471 5.274 5.173 5.071 4.966 4.859 4.750 4.639
10 0.010 4.772 4.706 4.558 4.405 4.327 4.247 4.165 4.082 3.996 3.909
10 0.025 3.665 3.621 3.522 3.419 3.365 3.311 3.255 3.198 3.140 3.080
10 0.050 2.943 2.913 2.845 2.774 2.737 2.700 2.661 2.621 2.580 2.538
10 0.100 2.302 2.284 2.244 2.201 2.178 2.155 2.132 2.107 2.082 2.055
11 0.005 5.320 5.236 5.049 4.855 4.756 4.654 4.551 4.445 4.337 4.226
11 0.010 4.462 4.397 4.251 4.099 4.021 3.941 3.860 3.776 3.690 3.603
11 0.025 3.474 3.430 3.330 3.226 3.173 3.118 3.061 3.004 2.944 2.883
11 0.050 2.818 2.788 2.719 2.646 2.609 2.570 2.531 2.490 2.448 2.405
11 0.100 2.227 2.209 2.167 2.123 2.100 2.076 2.052 2.026 2.000 1.972
12 0.005 4.988 4.906 4.721 4.530 4.431 4.331 4.228 4.123 4.015 3.904
12 0.010 4.220 4.155 4.010 3.858 3.780 3.701 3.619 3.535 3.449 3.361
12 0.025 3.321 3.277 3.177 3.073 3.019 2.963 2.906 2.848 2.787 2.725
12 0.050 2.717 2.687 2.617 2.544 2.505 2.466 2.426 2.384 2.341 2.296
12 0.100 2.166 2.147 2.105 2.060 2.036 2.011 1.986 1.960 1.932 1.904
13 0.005 4.724 4.643 4.460 4.270 4.173 4.073 3.970 3.866 3.758 3.647
13 0.010 4.025 3.960 3.815 3.665 3.587 3.507 3.425 3.341 3.255 3.165
13 0.025 3.197 3.153 3.053 2.948 2.893 2.837 2.780 2.720 2.659 2.596
13 0.050 2.635 2.604 2.533 2.459 2.420 2.380 2.339 2.297 2.252 2.206
13 0.100 2.116 2.097 2.053 2.007 1.983 1.958 1.931 1.904 1.876 1.846
14 0.005 4.508 4.428 4.247 4.059 3.961 3.862 3.760 3.655 3.547 3.436
14 0.010 3.864 3.800 3.656 3.505 3.427 3.348 3.266 3.181 3.094 3.004
14 0.025 3.095 3.050 2.949 2.844 2.789 2.732 2.674 2.614 2.552 2.487
14 0.050 2.565 2.534 2.463 2.388 2.349 2.308 2.266 2.223 2.178 2.131
14 0.100 2.073 2.054 2.010 1.962 1.938 1.912 1.885 1.857 1.828 1.797
15 0.005 4.329 4.250 4.070 3.883 3.786 3.687 3.585 3.480 3.372 3.260
15 0.010 3.730 3.666 3.522 3.372 3.294 3.214 3.132 3.047 2.959 2.869
15 0.025 3.008 2.963 2.862 2.756 2.701 2.644 2.585 2.524 2.461 2.395
15 0.050 2.507 2.475 2.403 2.328 2.288 2.247 2.204 2.160 2.114 2.066
15 0.100 2.037 2.017 1.972 1.924 1.899 1.873 1.845 1.817 1.787 1.755
16 0.005 4.179 4.099 3.920 3.734 3.638 3.539 3.437 3.332 3.224 3.112
16 0.010 3.616 3.553 3.409 3.259 3.181 3.101 3.018 2.933 2.845 2.753
16 0.025 2.934 2.889 2.788 2.681 2.625 2.568 2.509 2.447 2.383 2.316
16 0.050 2.456 2.425 2.352 2.276 2.235 2.194 2.151 2.106 2.059 2.010
16 0.100 2.005 1.985 1.940 1.891 1.866 1.839 1.811 1.782 1.751 1.718
17 0.005 4.050 3.971 3.793 3.607 3.511 3.412 3.311 3.206 3.097 2.984
17 0.010 3.518 3.455 3.312 3.162 3.083 3.003 2.920 2.835 2.746 2.653
17 0.025 2.870 2.825 2.723 2.616 2.560 2.502 2.442 2.380 2.315 2.248
17 0.050 2.413 2.381 2.308 2.230 2.190 2.148 2.104 2.058 2.011 1.960
17 0.100 1.978 1.958 1.912 1.862 1.836 1.809 1.781 1.751 1.719 1.686
18 0.005 3.938 3.860 3.683 3.498 3.402 3.303 3.201 3.096 2.987 2.873
18 0.010 3.434 3.371 3.227 3.077 2.999 2.919 2.835 2.749 2.660 2.566
18 0.025 2.814 2.769 2.667 2.559 2.503 2.445 2.384 2.321 2.256 2.187
18 0.050 2.374 2.342 2.269 2.191 2.150 2.107 2.063 2.017 1.968 1.917
18 0.100 1.954 1.933 1.887 1.837 1.810 1.783 1.754 1.723 1.691 1.657
n1 1 2 3 4 5 6 7 8 9 10
n2 α
19 0.005 10.073 7.093 5.916 5.268 4.853 4.561 4.345 4.177 4.043 3.933
19 0.010 8.185 5.926 5.010 4.500 4.171 3.939 3.765 3.631 3.523 3.434
19 0.025 5.922 4.508 3.903 3.559 3.333 3.172 3.051 2.956 2.880 2.817
19 0.050 4.381 3.522 3.127 2.895 2.740 2.628 2.544 2.477 2.423 2.378
19 0.100 2.990 2.606 2.397 2.266 2.176 2.109 2.058 2.017 1.984 1.956
20 0.005 9.944 6.987 5.818 5.174 4.762 4.472 4.257 4.090 3.956 3.847
20 0.010 8.096 5.849 4.938 4.431 4.103 3.871 3.699 3.564 3.457 3.368
20 0.025 5.871 4.461 3.859 3.515 3.289 3.128 3.007 2.913 2.837 2.774
20 0.050 4.351 3.493 3.098 2.866 2.711 2.599 2.514 2.447 2.393 2.348
20 0.100 2.975 2.589 2.380 2.249 2.158 2.091 2.040 1.999 1.965 1.937
21 0.005 9.829 6.891 5.730 5.091 4.681 4.393 4.179 4.013 3.880 3.771
21 0.010 8.017 5.780 4.874 4.369 4.042 3.812 3.640 3.506 3.398 3.310
21 0.025 5.827 4.420 3.819 3.475 3.250 3.090 2.969 2.874 2.798 2.735
21 0.050 4.325 3.467 3.072 2.840 2.685 2.573 2.488 2.420 2.366 2.321
21 0.100 2.961 2.575 2.365 2.233 2.142 2.075 2.023 1.982 1.948 1.920
22 0.005 9.727 6.806 5.652 5.017 4.609 4.322 4.109 3.944 3.812 3.703
22 0.010 7.945 5.719 4.817 4.313 3.988 3.758 3.587 3.453 3.346 3.258
22 0.025 5.786 4.383 3.783 3.440 3.215 3.055 2.934 2.839 2.763 2.700
22 0.050 4.301 3.443 3.049 2.817 2.661 2.549 2.464 2.397 2.342 2.297
22 0.100 2.949 2.561 2.351 2.219 2.128 2.060 2.008 1.967 1.933 1.904
23 0.005 9.635 6.730 5.582 4.950 4.544 4.259 4.047 3.882 3.750 3.642
23 0.010 7.881 5.664 4.765 4.264 3.939 3.710 3.539 3.406 3.299 3.211
23 0.025 5.750 4.349 3.750 3.408 3.183 3.023 2.902 2.808 2.731 2.668
23 0.050 4.279 3.422 3.028 2.796 2.640 2.528 2.442 2.375 2.320 2.275
23 0.100 2.937 2.549 2.339 2.207 2.115 2.047 1.995 1.953 1.919 1.890
24 0.005 9.551 6.661 5.519 4.890 4.486 4.202 3.991 3.826 3.695 3.587
24 0.010 7.823 5.614 4.718 4.218 3.895 3.667 3.496 3.363 3.256 3.168
24 0.025 5.717 4.319 3.721 3.379 3.155 2.995 2.874 2.779 2.703 2.640
24 0.050 4.260 3.403 3.009 2.776 2.621 2.508 2.423 2.355 2.300 2.255
24 0.100 2.927 2.538 2.327 2.195 2.103 2.035 1.983 1.941 1.906 1.877
25 0.005 9.475 6.598 5.462 4.835 4.433 4.150 3.939 3.776 3.645 3.537
25 0.010 7.770 5.568 4.675 4.177 3.855 3.627 3.457 3.324 3.217 3.129
25 0.025 5.686 4.291 3.694 3.353 3.129 2.969 2.848 2.753 2.677 2.613
25 0.050 4.242 3.385 2.991 2.759 2.603 2.490 2.405 2.337 2.282 2.236
25 0.100 2.918 2.528 2.317 2.184 2.092 2.024 1.971 1.929 1.895 1.866
26 0.005 9.406 6.541 5.409 4.785 4.384 4.103 3.893 3.730 3.599 3.492
26 0.010 7.721 5.526 4.637 4.140 3.818 3.591 3.421 3.288 3.182 3.094
26 0.025 5.659 4.265 3.670 3.329 3.105 2.945 2.824 2.729 2.653 2.590
26 0.050 4.225 3.369 2.975 2.743 2.587 2.474 2.388 2.321 2.265 2.220
26 0.100 2.909 2.519 2.307 2.174 2.082 2.014 1.961 1.919 1.884 1.855
27 0.005 9.342 6.489 5.361 4.740 4.340 4.059 3.850 3.687 3.557 3.450
27 0.010 7.677 5.488 4.601 4.106 3.785 3.558 3.388 3.256 3.149 3.062
27 0.025 5.633 4.242 3.647 3.307 3.083 2.923 2.802 2.707 2.631 2.568
27 0.050 4.210 3.354 2.960 2.728 2.572 2.459 2.373 2.305 2.250 2.204
27 0.100 2.901 2.511 2.299 2.165 2.073 2.005 1.952 1.909 1.874 1.845
n1 11 12 15 20 24 30 40 60 120 ∞
n2 α
19 0.005 3.841 3.763 3.587 3.402 3.306 3.208 3.106 3.000 2.891 2.776
19 0.010 3.360 3.297 3.153 3.003 2.925 2.844 2.761 2.674 2.584 2.489
19 0.025 2.765 2.720 2.617 2.509 2.452 2.394 2.333 2.270 2.203 2.133
19 0.050 2.340 2.308 2.234 2.155 2.114 2.071 2.026 1.980 1.930 1.878
19 0.100 1.932 1.912 1.865 1.814 1.787 1.759 1.730 1.699 1.666 1.631
20 0.005 3.756 3.678 3.502 3.318 3.222 3.123 3.022 2.916 2.806 2.691
20 0.010 3.294 3.231 3.088 2.938 2.859 2.778 2.695 2.608 2.517 2.421
20 0.025 2.721 2.676 2.573 2.464 2.408 2.349 2.287 2.223 2.156 2.085
20 0.050 2.310 2.278 2.203 2.124 2.082 2.039 1.994 1.946 1.896 1.843
20 0.100 1.913 1.892 1.845 1.794 1.767 1.738 1.708 1.677 1.643 1.607
21 0.005 3.680 3.602 3.427 3.243 3.147 3.049 2.947 2.841 2.730 2.614
21 0.010 3.236 3.173 3.030 2.880 2.801 2.720 2.636 2.548 2.457 2.360
21 0.025 2.682 2.637 2.534 2.425 2.368 2.308 2.246 2.182 2.114 2.042
21 0.050 2.283 2.250 2.176 2.096 2.054 2.010 1.965 1.916 1.866 1.812
21 0.100 1.896 1.875 1.827 1.776 1.748 1.719 1.689 1.657 1.623 1.586
22 0.005 3.612 3.535 3.360 3.176 3.081 2.982 2.880 2.774 2.663 2.546
22 0.010 3.184 3.121 2.978 2.827 2.749 2.667 2.583 2.495 2.403 2.306
22 0.025 2.647 2.602 2.498 2.389 2.332 2.272 2.210 2.145 2.076 2.003
22 0.050 2.259 2.226 2.151 2.071 2.028 1.984 1.938 1.889 1.838 1.783
22 0.100 1.880 1.859 1.811 1.759 1.731 1.702 1.671 1.639 1.604 1.567
23 0.005 3.551 3.474 3.300 3.116 3.021 2.922 2.820 2.713 2.602 2.484
23 0.010 3.137 3.074 2.931 2.780 2.702 2.620 2.536 2.447 2.354 2.256
23 0.025 2.615 2.570 2.466 2.357 2.299 2.239 2.176 2.111 2.041 1.968
23 0.050 2.236 2.204 2.128 2.048 2.005 1.961 1.914 1.865 1.813 1.757
23 0.100 1.866 1.845 1.796 1.744 1.716 1.686 1.655 1.622 1.587 1.549
24 0.005 3.497 3.420 3.246 3.062 2.967 2.868 2.765 2.658 2.546 2.428
24 0.010 3.094 3.032 2.889 2.738 2.659 2.577 2.492 2.403 2.310 2.211
24 0.025 2.586 2.541 2.437 2.327 2.269 2.209 2.146 2.080 2.010 1.935
24 0.050 2.216 2.183 2.108 2.027 1.984 1.939 1.892 1.842 1.790 1.733
24 0.100 1.853 1.832 1.783 1.730 1.702 1.672 1.641 1.607 1.571 1.533
25 0.005 3.447 3.370 3.196 3.013 2.918 2.819 2.716 2.609 2.496 2.377
25 0.010 3.056 2.993 2.850 2.699 2.620 2.538 2.453 2.364 2.270 2.170
25 0.025 2.560 2.515 2.411 2.300 2.242 2.182 2.118 2.052 1.981 1.906
25 0.050 2.198 2.165 2.089 2.007 1.964 1.919 1.872 1.822 1.768 1.711
25 0.100 1.841 1.820 1.771 1.718 1.689 1.659 1.627 1.593 1.557 1.518
26 0.005 3.402 3.325 3.151 2.968 2.873 2.774 2.671 2.563 2.450 2.330
26 0.010 3.021 2.958 2.815 2.664 2.585 2.503 2.417 2.327 2.233 2.132
26 0.025 2.536 2.491 2.387 2.276 2.217 2.157 2.093 2.026 1.954 1.878
26 0.050 2.181 2.148 2.072 1.990 1.946 1.901 1.853 1.803 1.749 1.691
26 0.100 1.830 1.809 1.760 1.706 1.677 1.647 1.615 1.581 1.544 1.504
27 0.005 3.360 3.284 3.110 2.927 2.832 2.733 2.630 2.522 2.408 2.287
27 0.010 2.988 2.926 2.783 2.632 2.552 2.470 2.384 2.294 2.198 2.097
27 0.025 2.514 2.469 2.364 2.253 2.195 2.133 2.069 2.002 1.930 1.853
27 0.050 2.166 2.132 2.056 1.974 1.930 1.884 1.836 1.785 1.731 1.672
27 0.100 1.820 1.799 1.749 1.695 1.666 1.636 1.603 1.569 1.531 1.491
n1 1 2 3 4 5 6 7 8 9 10
n2 α
28 0.005 9.284 6.440 5.317 4.698 4.300 4.020 3.811 3.649 3.519 3.412
28 0.010 7.636 5.453 4.568 4.074 3.754 3.528 3.358 3.226 3.120 3.032
28 0.025 5.610 4.221 3.626 3.286 3.063 2.903 2.782 2.687 2.611 2.547
28 0.050 4.196 3.340 2.947 2.714 2.558 2.445 2.359 2.291 2.236 2.190
28 0.100 2.894 2.503 2.291 2.157 2.064 1.996 1.943 1.900 1.865 1.836
29 0.005 9.230 6.396 5.276 4.659 4.262 3.983 3.775 3.613 3.483 3.376
29 0.010 7.598 5.420 4.538 4.045 3.725 3.499 3.330 3.198 3.092 3.005
29 0.025 5.588 4.201 3.607 3.267 3.044 2.884 2.763 2.669 2.592 2.529
29 0.050 4.183 3.328 2.934 2.701 2.545 2.432 2.346 2.278 2.223 2.177
29 0.100 2.887 2.495 2.283 2.149 2.057 1.988 1.935 1.892 1.857 1.827
30 0.005 9.180 6.355 5.239 4.623 4.228 3.949 3.742 3.580 3.451 3.344
30 0.010 7.562 5.390 4.510 4.018 3.699 3.473 3.305 3.173 3.067 2.979
30 0.025 5.568 4.182 3.589 3.250 3.026 2.867 2.746 2.651 2.575 2.511
30 0.050 4.171 3.316 2.922 2.690 2.534 2.421 2.334 2.266 2.211 2.165
30 0.100 2.881 2.489 2.276 2.142 2.049 1.980 1.927 1.884 1.849 1.819
40 0.005 8.828 6.066 4.976 4.374 3.986 3.713 3.509 3.350 3.222 3.117
40 0.010 7.314 5.178 4.313 3.828 3.514 3.291 3.124 2.993 2.888 2.801
40 0.025 5.424 4.051 3.463 3.126 2.904 2.744 2.624 2.529 2.452 2.388
40 0.050 4.085 3.232 2.839 2.606 2.449 2.336 2.249 2.180 2.124 2.077
40 0.100 2.835 2.440 2.226 2.091 1.997 1.927 1.873 1.829 1.793 1.763
60 0.005 8.495 5.795 4.729 4.140 3.760 3.492 3.291 3.134 3.008 2.904
60 0.010 7.077 4.977 4.126 3.649 3.339 3.119 2.953 2.823 2.718 2.632
60 0.025 5.286 3.925 3.343 3.008 2.786 2.627 2.507 2.412 2.334 2.270
60 0.050 4.001 3.150 2.758 2.525 2.368 2.254 2.167 2.097 2.040 1.993
60 0.100 2.791 2.393 2.177 2.041 1.946 1.875 1.819 1.775 1.738 1.707
120 0.005 8.179 5.539 4.497 3.921 3.548 3.285 3.087 2.933 2.808 2.705
120 0.010 6.851 4.787 3.949 3.480 3.174 2.956 2.792 2.663 2.559 2.472
120 0.025 5.152 3.805 3.227 2.894 2.674 2.515 2.395 2.299 2.222 2.157
120 0.050 3.920 3.072 2.680 2.447 2.290 2.175 2.087 2.016 1.959 1.910
120 0.100 2.748 2.347 2.130 1.992 1.896 1.824 1.767 1.722 1.684 1.652
∞ 0.005 7.880 5.299 4.280 3.715 3.350 3.091 2.897 2.745 2.621 2.519
∞ 0.010 6.635 4.605 3.782 3.319 3.017 2.802 2.640 2.511 2.408 2.321
∞ 0.025 5.024 3.689 3.116 2.786 2.567 2.408 2.288 2.192 2.114 2.048
∞ 0.050 3.842 2.996 2.605 2.372 2.214 2.099 2.010 1.939 1.880 1.831
∞ 0.100 2.706 2.303 2.084 1.945 1.847 1.774 1.717 1.670 1.632 1.599
n1 11 12 15 20 24 30 40 60 120 ∞
n2 α
28 0.005 3.322 3.246 3.073 2.890 2.794 2.695 2.592 2.483 2.369 2.247
28 0.010 2.959 2.896 2.753 2.602 2.522 2.440 2.354 2.263 2.167 2.064
28 0.025 2.494 2.448 2.344 2.232 2.174 2.112 2.048 1.980 1.907 1.829
28 0.050 2.151 2.118 2.041 1.959 1.915 1.869 1.820 1.769 1.714 1.654
28 0.100 1.811 1.790 1.740 1.685 1.656 1.625 1.592 1.558 1.520 1.478
29 0.005 3.287 3.211 3.038 2.855 2.759 2.660 2.557 2.448 2.333 2.210
29 0.010 2.931 2.868 2.726 2.574 2.495 2.412 2.325 2.234 2.138 2.034
29 0.025 2.475 2.430 2.325 2.213 2.154 2.092 2.028 1.959 1.886 1.807
29 0.050 2.138 2.104 2.027 1.945 1.901 1.854 1.806 1.754 1.698 1.638
29 0.100 1.802 1.781 1.731 1.676 1.647 1.616 1.583 1.547 1.509 1.467
30 0.005 3.255 3.179 3.006 2.823 2.727 2.628 2.524 2.415 2.300 2.176
30 0.010 2.906 2.843 2.700 2.549 2.469 2.386 2.299 2.208 2.111 2.006
30 0.025 2.458 2.412 2.307 2.195 2.136 2.074 2.009 1.940 1.866 1.787
30 0.050 2.126 2.092 2.015 1.932 1.887 1.841 1.792 1.740 1.683 1.622
30 0.100 1.794 1.773 1.722 1.667 1.638 1.606 1.573 1.538 1.499 1.456
40 0.005 3.028 2.953 2.781 2.598 2.502 2.401 2.296 2.184 2.064 1.932
40 0.010 2.727 2.665 2.522 2.369 2.288 2.203 2.114 2.019 1.917 1.805
40 0.025 2.334 2.288 2.182 2.068 2.007 1.943 1.875 1.803 1.724 1.637
40 0.050 2.038 2.003 1.924 1.839 1.793 1.744 1.693 1.637 1.577 1.509
40 0.100 1.737 1.715 1.662 1.605 1.574 1.541 1.506 1.467 1.425 1.377
60 0.005 2.817 2.742 2.570 2.387 2.290 2.187 2.079 1.962 1.834 1.689
60 0.010 2.559 2.496 2.352 2.198 2.115 2.028 1.936 1.836 1.726 1.601
60 0.025 2.216 2.169 2.061 1.944 1.882 1.815 1.744 1.667 1.581 1.482
60 0.050 1.952 1.917 1.836 1.748 1.700 1.649 1.594 1.534 1.467 1.389
60 0.100 1.680 1.657 1.603 1.543 1.511 1.476 1.437 1.395 1.348 1.292
120 0.005 2.618 2.544 2.373 2.188 2.089 1.984 1.871 1.747 1.606 1.431
120 0.010 2.399 2.336 2.191 2.035 1.950 1.860 1.763 1.656 1.533 1.381
120 0.025 2.102 2.055 1.945 1.825 1.760 1.690 1.614 1.530 1.433 1.311
120 0.050 1.869 1.834 1.750 1.659 1.608 1.554 1.495 1.429 1.352 1.254
120 0.100 1.625 1.601 1.545 1.482 1.447 1.409 1.368 1.320 1.265 1.193
∞ 0.005 2.433 2.359 2.187 2.000 1.898 1.789 1.669 1.533 1.364 1.016
∞ 0.010 2.248 2.185 2.039 1.878 1.791 1.697 1.592 1.473 1.325 1.015
∞ 0.025 1.993 1.945 1.833 1.709 1.640 1.566 1.484 1.388 1.269 1.012
∞ 0.050 1.789 1.752 1.666 1.571 1.517 1.459 1.394 1.318 1.222 1.010
∞ 0.100 1.571 1.546 1.487 1.421 1.383 1.342 1.295 1.240 1.169 1.008