Вы находитесь на странице: 1из 84

Dpto. Matemática Aplicada (Biomatemática). Facultad de Biología .U.C.M.

Guión de prácticas y Guía


rápida de
STATGRAPHICS
Centurion XVI
(Asignatura: ESTADÍSTICA APLICADA A LA BIOLOGÍA)

Este guión está LIBRE, no podría ser de otra forma, de cualquier copyright.
Primeros pasos.

INTRODUCCION
El paquete estadístico que se utilizará durante las prácticas de la asignatura Estadística Aplicada a la
Biología es el STATGRAPHICS Centurion XVI. Para ejecutar este programa, desde el botón de INICIO
del sistema operativo se debe acceder a la opción de programas Statgraphics Centurion XVI.I y dentro de
esta opción elegir el icono Statgraphics.

Una vez terminado el proceso de inicialización del Statgraphics, se muestra en pantalla la ventana
principal del programa que se conoce como StatFolio (Figura 1).

Figura 1

Un StatFolio contiene una serie de ventanas o paneles que tendrán distinta información relativa a un
análisis de datos. Estas ventanas se muestran en la figura anterior y son las siguientes:

Matriz de datos (Libro de datos).


Es la ventana que se muestra en el centro de la pantalla y contendrá los datos a analizar, clasificados en
subventanas u hojas, hasta un total de 26; aunque estén activas o visibles una parte de ellas. Inicialmente,
la hoja seleccionada recibe el nombre de <sin título>, nombre que cambiará en el momento en que se
graben los datos introducidos de ésta en su correspondiente fichero de datos, con extensión por defecto
sgd.
Pulsando con el botón derecho del ratón en una hoja cualquiera del libro de datos, se accede al menú de
edición de datos que contiene, entre otras, la opción de Propiedades del Libro de Datos y que permite
activar aquellas hojas de interés.

Comentarios del Statfolio


En esta ventana se introducirán los comentarios que se deseen relativos al análisis que se realice.

Dpto. Matemática Aplicada (Biomatemática). Facultad de Biología. U.C.M. 2


Primeros pasos.

StatAdvisor
En esta ventana se muestra un comentario generado por el programa que ayuda a la interpretación de los
resultados que se obtengan en cada momento. Esta ayuda se referirá a la ventana de resultados de análisis
que esté activa en cada momento.

StatReporter
Consiste en un pequeño procesador de textos donde se puede ir escribiendo un informe a medida que se
van generando los resultados. Tiene la posibilidad de cortar y pegar los resultados en forma de texto y en
forma gráfica.

StatGallery
Esta ventana, al igual que la anterior, se utiliza para visualizar los resultados que se vayan generando en
forma de texto o en forma de gráficos.

Ficheros de Datos
Para realizar análisis de datos, la ventana o libro de datos debe contener la hoja de datos a analizar. Para
activar una hoja de datos se puede proceder de dos maneras, bien recuperando un fichero de datos ya
guardado o bien introduciendo los nuevos datos en la hoja de datos seleccionada. Para la primera de las
operaciones se debe acceder a la opción Archivo del menú principal y elegir la opción Abrir. Se pueden
abrir diversos tipos de ficheros almacenados mediante Statgraphics. En el caso que nos ocupa se elegiría
la opción Abrir Datos…. Además de poder abrir ficheros de datos, se puede abrir un StatFolio completo,
que contiene además de los datos, las ventanas mencionadas en los párrafos anteriores, o bien abrir sólo
parte de él, es decir, abrir un StatGallery o un StatReporter.

Si se opta por introducir los datos directamente en una hoja de datos, primeramente se deben definir las
variables (columnas) de esa hoja. Para definir una variable, se selecciona la columna deseada con el botón
izquierdo del ratón. Una vez que esta columna está seleccionada (se debe observar que la columna está
toda ella en azul) se pulsa el botón derecho del ratón y se despliega la ventana de opciones de columna.
Entre las opciones que se muestran en este nuevo menú, se elige la opción de modificar columna
(Modificar Columna …). Se despliega una ventana donde se puede modificar el nombre de la variable,
introducir un comentario, modificar el ancho de la columna y cambiar el tipo de variable. Por defecto,
todas las variables se definen como numéricas. En ocasiones, el tipo de variable puede modificarse para
poder almacenar nombres, fechas, etc. (Figura 2).

Figura 2

Dpto. Matemática Aplicada (Biomatemática). Facultad de Biología. U.C.M. 3


Primeros pasos.

Para introducir los datos de las distintas variables para cada uno de los casos observados (sujetos o
unidades experimentales), se teclea el dato en la celda correspondiente y se acepta dicho caso con la tecla
<Intro>. Una vez introducidos los datos, se deben almacenar en un fichero. Para ello, se elige la opción
Guardar Datos Como… dentro de la opción Guardar Como del menú principal de ficheros (Archivo).
Una vez grabados los datos con un nombre de fichero, éste aparecerá en el título de la hoja de datos
sustituyendo al anterior nombre <sin título>.

Transformación de datos
Para transformar variables, utilidad de interés para normalización de observaciones, por ejemplo, se debe
seleccionar la columna donde se quiere almacenar el resultado de la transformación pulsando con el ratón
en el nombre de la variable. Posteriormente seleccionando la opción de generar datos (Generar Datos) del
menú que aparece pulsando el botón derecho del ratón se mostrará la ventana de la Figura 3.

Figura 3
En esta ventana de generación de datos, se debe introducir la expresión cuyo resultado será el contenido
de la variable que ha sido seleccionada. Desde esta ventana se tiene acceso a una serie de operadores para
realizar la transformación al igual que se tiene acceso a la lista de variables que componen la matriz de
datos y que pueden ser utilizadas como argumentos de las distintas funciones de transformación. Una vez
compuesta la expresión para transformar, se puede, antes de generar los datos con el botón (Aceptar),
visualizar el resultado de la expresión pulsando el botón Mostrar…. El resultado que se muestra es el
número de filas de la matriz que se transforman y una muestra del contenido de la nueva variable.

Recodificación de datos
Para recodificar alguna variable, es aconsejable copiar y pegar los datos originales en nuevas columnas de
la matriz de datos. Para realizar esta operación basta con ir marcando con el ratón las variables a copiar y
a partir de las opciones de columna (botón derecho del ratón) seleccionar sucesivamente las opciones
copiar (Copiar) y pegar en la nueva localización (Pegar). Una vez copiada la información en la nueva
columna, seleccionar la opción de recodificación de datos (Recodificar Datos…). Aparece una ventana en
la que se configurarán los valores originales de la variable a los que se les asignará un valor nuevo
(Figura 4). Los valores antiguos se introducen en forma de intervalo del que se definen el extremo
inferior (Límite Inferior) y superior (Límite Superior), pudiendo seleccionar distintas opciones para los
extremos de dicho intervalo en función de que se trate de un intervalo abierto o cerrado.

Dpto. Matemática Aplicada (Biomatemática). Facultad de Biología. U.C.M. 4


Primeros pasos.

Figura 4

Dpto. Matemática Aplicada (Biomatemática). Facultad de Biología. U.C.M. 5


Análisis exploratorio de datos (Descriptiva).

Conceptos y definiciones previas al análisis descriptivo y exploración de un conjuntos


de datos: observaciones de una muestra de una población univariante

Parámetros y Estadísticos

• Percentiles (cuantiles): Sean y1,...,yn las observaciones del contenido en calcio de una muestra de
n items, y denotamos por y(1) ,..., y(n) a los mismos datos, pero ordenados de menor a mayor. Si
decimos que un dato está en el percentil 85, queremos señalar que su contenido en calcio es mayor
que el 85% de los n datos o, de manera equivalente, menor que el 15%. De forma similar, se
entiende por cuantil de orden 0.85 o cuantil 0.85 al valor de la escala de datos que divide el conjunto
de n datos en dos grupos, de manera que una fracción 0.85 de las observaciones se encuentran por
debajo y otra 0.15 por encima. Si el modelo de probabilidad de Y es conocido, podemos hablar de
cuantil de orden p (0<p<1) , designado por cp o Q(p) , como aquel valor que verifica la siguientes
desigualdades:
⎧⎪p(Y ≤ cp ) ≥ p

⎪⎩p(Y ≥ cp ) ≥ 1 − p
Una forma algo particular de definir el concepto de cuantil de orden p, que asegure su unicidad, es la
siguiente: el menor valor de Y tal que p(Y≤cp) ≥p.
Los percentiles o cuantiles, referidos a un conjunto de n datos, son generalmente estimaciones de los
correspondientes parámetros poblacionales. Cuantiles de interés son:

• MEDIANA : c0.5 (cuantil de orden 1/2)

• Primer y Tercer CUARTIL : c0.25 y c0.75 , respectivamente ; usualmente designados por Q1 y Q3 .


Al valor IQR = Q3 - Q1 se le denomina Rango Intercuartil.

Dado que por el momento estamos trabajando con conjuntos de datos, NO DISTINGUIREMOS, salvo
que se señale específicamente, ENTRE la notación empleada para PARAMETROS Y
ESTIMACIONES, entendiéndose que nos referimos a estas últimas.
Algunas estimaciones, respecto de los cuantiles, que nos indican el algoritmo utilizado por las
aplicaciones informáticas, Statgraphics por ejemplo:

• Mediana (muestral)
Si n es impar,
m = c0.5 = y ⎛ n +1 ⎞
⎜ 2 ⎟
⎝ ⎠
Si n es par,
y⎛ n ⎞ + y⎛ n ⎞
⎜2⎟ ⎜ 2 +1 ⎟
⎝ ⎠ ⎝ ⎠
m = c 0. 5 =
2
• Primer y tercer Cuartil (muestrales)
Si n es múltiplo de 4,
y⎛ n ⎞ + y⎛ n ⎞
⎜4⎟ ⎜ 4 +1 ⎟
⎝ ⎠ ⎝ ⎠
Q1 =
2
y ⎛ 3n ⎞ + y ⎛ 3n ⎞
⎜ 4 ⎟ ⎜ 4 +1 ⎟
⎝ ⎠ ⎝ ⎠
Q3 =
2

Dpto. Matemática Aplicada (Biomatemática). Facultad de Biología. U.C.M. 6


Análisis exploratorio de datos (Descriptiva).

Si n no es múltiplo de 4,

Q1 = y(r) donde r = mayor entero más próximo a n/4

Q3 = y(r) donde r = mayor entero más próximo a 3n/4

Algunos parámetros de tendencia central (medidas de tendencia central) y estimaciones

• Valor medio, media o valor esperado , µ , y su estimación a partir de n observaciones con la


n
yi
media muestral (Average) ( y = ∑ n ) , media aritmética de los datos.
i =1
• Mediana (Median)(ya definido)

• Moda (Mode): máximo de la densidad de probabilidad del modelo de una variable. En el estudio de
un conjunto de n datos u observaciones, correspondientes a una variable categórica o
cuantitativa discreta, señala la cualidad o valor que aparece con mayor frecuencia.

Algunos parámetros de dispersión (medidas de variabilidad) y de forma: estimaciones

• Varianza (Variance), medida de dispersión media , respecto de valor medio; designada por σ , cuya
2

estimación a partir de n observaciones se realiza con la varianza muestral

( yi − y )
2
n
2
s =s = 2
y ∑i =1 n −1
• Desviación típica o estándar (Standard deviation), raíz cuadrada positiva de la varianza,
representada por σ , cuya estimación se establecerá con

( yi − y )
2
n
s = sy = ∑
i =1 n −1
• Rango (referido a n datos) : diferencia entre el mayor y el menor valor observado ,
y(n) − y(1)
• Rango intercuartil (definido anteriormente)

• Coeficiente de asimetría (Skewness), medida de asimetría del modelo de probabilidad,


representada por γ1 o β1 , que será estimado por

n
n∑ ( yi − y )
3

b1 = g1 = i=1
(n − 1)(n − 2)s3

Este parámetro es cero para modelos de probabilidad simétricos. Un valor mayor que cero señala que
el modelo está sesgado positivamente, más desviado hacia la derecha, la cola derecha está más
pronunciada. En distribuciones unimodales al comparar media y mediana se tiene

Dpto. Matemática Aplicada (Biomatemática). Facultad de Biología. U.C.M. 7


Análisis exploratorio de datos (Descriptiva).

• Distribución simétrica : media=mediana


• Distribución sesgada positivamente : media > mediana
• Distribución segada negativamente: media < mediana

• Coeficiente de asimetría estandarizado , definido por


g1
6
n
donde n es el tamaño muestral. Si los datos proceden de una distribución normal y n es grande, el
modelo de probabilidad del coeficiente de asimetría estandarizado corresponde al de una población
normal reducida, lo que permite su uso para pruebas de normalidad : valores del coeficiente de
asimetría estandarizado entre –2 y 2, nos ha de conducir al no rechazo de tal normalidad (ver.
Statistical Methods. Snedecor, G. W. and Cochran W.G., Iowa State University Press (1967)).

• Coeficiente de apuntamiento o curtosis o, más bien, exceso de curtosis (Kurtosis), medida


de aplastamiento o aplanamiento del modelo de probabilidad, denotada por γ2 o β2 , estimado con
n
n(n + 1)∑ (yi − y)4
3(n − 1)2
b2 = g2 = − i=1
(n − 1)(n − 2)(n − 3)s 4 (n − 2)(n − 3)
El valor de γ2 para poblaciones normales es cero; un valor positivo de este parámetro señalaría una
densidad de probabilidad más apuntada o picuda que la de la normal; mientras que valores negativos
advierten aplastamiento respecto a ésta.

• Coeficiente de apuntamiento estandarizado: se define por


g2
24
n
donde n es el número de datos. Tal y como ocurría con el coeficiente de asimetría, en poblaciones
normales y con tamaños muestrales grandes, la densidad del coeficiente de aplastamiento
estandarizado es próxima a la de la normal reducida. Un valor fuera del intervalo (-2, 2) llevaría al
analista al rechazo de la normalidad de la población.

• Coeficiente de variación: medida de variabilidad o dispersión como fracción, y a veces


porcentaje, del valor medio; independiente por tanto de la unidad de medida adoptada, que se define
por cv = σ /µ . Se estima a partir de
s s
o 100
y y

Dpto. Matemática Aplicada (Biomatemática). Facultad de Biología. U.C.M. 8


Análisis exploratorio de datos (Descriptiva).

Acceso con Statgraphics al análisis descriptivo y exploración


de un conjuntos de datos: observaciones de una muestra de
una población univariante
CASO PRÁCTICO RESUELTO que deberá reproducir el alumno.

Las observaciones de la variable max_conc_día_ozono, del fichero de prácticas (datos_practicas.sgd)


corresponden a la concentración máxima de ozono (pp1000m) de 60 días seleccionados al azar , medidos
en la ciudad de Stanford (USA) (concentraciones superiores a 180 pp1000m indican alta o excesiva
contaminación por ozono). Vamos a tratar de efectuar un análisis descriptivo o exploratorio de esta
muestra.
Para ello, se debe seleccionar de la barra de menús la opción Describir....Datos Numéricos
....Análisis de Una Variable…. Una vez seleccionada, se abrirá las ventanas de configuración del
análisis (cajas de diálogo de entrada de datos). En la primera de ellas (figura 5) se solicita la
información acerca de cuál es la variable (columna) de la hoja de datos activo que contiene las
observaciones; y en la segunda ventana (figura 6) se activan las opciones de tablas y gráficas deseadas.
Una vez configurado el análisis, los resultados iniciales que se muestran en varias ventanas (figura 7) son
el resumen del análisis (Resumen del análisis), relación de estimaciones de los distintos parámetros
(Resumen estadístico) y distintos gráficos cuya justificación abordaremos en el punto de Métodos
Gráficos para Análisis de datos Univariantes. Para ampliar al máximo tamaño una ventana en particular,
se debe pulsar dos veces el botón izquierdo del ratón, y nuevamente dos veces para volver a la situación
anterior.
A través de la barra de herramientas de análisis se accede a la configuración de paneles de
resultados1 y se pueden obtener datos adicionales como percentiles, tabla de frecuencias, etc... (figura 8).
Asímismo, pulsando el botón izquierdo del ratón en una ventana de las anteriores, se accede al resto de
opciones de la ventana.

Figura 5

1
Desde la barra de herramientas de análisis, se accede a la configuración de paneles de resultados
(tablas) y a la configuración de paneles gráficos pulsando el tercer botón por la izquierda.

Dpto. Matemática Aplicada (Biomatemática). Facultad de Biología. U.C.M. 9


Análisis exploratorio de datos (Descriptiva).

Figura 6

Figura 7

Las ventanas de la figura 8 han sido obtenidas seleccionando las opciones de tablas: Tablas de
Frecuencias y Percentiles; y las opciones gráficas: Gráfico de Dispersión y Gráfico de Caja y Bigotes.

Dpto. Matemática Aplicada (Biomatemática). Facultad de Biología. U.C.M. 10


Análisis exploratorio de datos (Descriptiva).

Figura 8
Continuación del caso práctico resuelto:

Análisis descriptivo y exploración de un conjuntos de datos


para observaciones de una muestra de una población
univariante : Métodos Gráficos
Para acceder a los métodos gráficos y sus correspondientes opciones, sobre la barra de
herramientas de análisis se pulsará el botón señalado con la llamada “Opciones de tablas y gráficas” y se
seleccionará los distintos tipos de gráficos para los datos analizados, contenidos en la variable
max_conc_día_ozono:

Opciones de
tablas y
gráficas
Se comentan a continuación los diferentes gráficos obtenidos y su significado:

Gráfico de dispersión : Una forma sencilla de representación de los datos y1,...,yn ; de una muestra
univariante, a lo largo de un eje horizontal. Permite ver claramente los valores mínimo y máximo y, en
caso de no existir un exceso de solapamiento, se puede detectar la zona de máxima densidad, la dispersión
de los datos, la simetría y los outliers (valores atípicos anormalmente grandes o pequeños, respecto a la
media de los restantes). Con el fin de evitar que datos coincidentes, al solaparse, no se distingan en la
gráfica, Statgraphics produce una “agitación-separación” vertical aleatoria, que puede ser modificada en
las opciones de este tipo de gráficos.

Dpto. Matemática Aplicada (Biomatemática). Facultad de Biología. U.C.M. 11


Análisis exploratorio de datos (Descriptiva).

Diagrama de Caja y Bigotes : Forma de representación gráfica de datos introducida por Tukey
(1977), que contempla una parte rectangular central, extendida desde el primer (Q1) al tercer cuartil (Q3),
conteniendo un segmento que señala la localización de la mediana muestral y un signo “+” en rojo que
representa la media muestral. Desde los extremos del rectángulo se prolongan los bigotes, cuyo valor
adyacente superior es la mayor observación que sea menor o igual a Q3 + 1.5 x IQR; mientras que el valor
adyacente inferior es la menor observación que es superior o igual a Q1 - 1.5 x IQR . Si alguna
observación se encuentra fuera del rango de los valores adyacentes, es representado de manera individual,
como valor atípico, mediante un pequeño cuadrado que además contendrá el signo “+” si su alejamiento
es excesivo (más de tres veces el rango intercuartil por encima o por debajo de la caja rectangular, es
decir, su valor es superior Q3 + 3 x IQR o inferior a Q1 - 3 x IQR, respectivamente).

Dpto. Matemática Aplicada (Biomatemática). Facultad de Biología. U.C.M. 12


Análisis exploratorio de datos (Descriptiva).

Cuantiles (representación gráfica): considera sobre el eje de ordenadas la fracción, porcentaje o


proporción de datos que son inferiores o iguales a un valor dado. Suministra información acerca de la
estructura de la distribución del modelo de probabilidad de la población.

Histogramas (diagrama de rectángulos): Se obtiene dividiendo el rango de los datos en intervalos


contiguos de igual amplitud o longitud (llamados clases). Para cada clase se cuentan las observaciones o
datos de la muestra que contiene, es decir, la frecuencia absoluta: Extendiendo ese recuento a la totalidad
de clases, el histograma se construye con rectángulos superpuestos, cuyas bases son las clases y cuyas
alturas son las frecuencias absolutas o una cantidad proporcional, como las frecuencias relativas. En
cuanto al número de clases a considerar, se recomienda ni menos de 5 ni más de 15; aunque una
referencia puede ser la regla de Sturges ( k= 1+3.3 log 10 (n) , donde n es el número de datos). El
histograma puede, entre otras cosas, dar una idea acerca de la forma de la densidad del modelo de
probabilidad.

Dpto. Matemática Aplicada (Biomatemática). Facultad de Biología. U.C.M. 13


Análisis exploratorio de datos (Descriptiva).

Gráfico de simetría : representa la simetría y, en su caso, la asimetría de las observaciones respecto de


la mediana muestral que, obviamente, de ser simétrica la densidad del modelo, determinaría el eje de
simetría. La mediana muestral determina con los datos el siguiente conjunto de pares de observaciones:
n
o (y n ,y n ) i = 1,...,
, si n es par
( +1 − i)
2
( + i)
2 2
n −1
o (y n +1 , y n +1 ) i = 1,..., , si n es impar
(
2
− i) (
2
+ i) 2

En el caso de simetría y para cada par, la distancia de la primera y segunda coordenada a la mediana no
deber de ser muy diferente (en una situación ideal, deberían coincidir). El diagrama de simetría representa
los puntos cuyas coordenadas son las distancias para cada par (la situación perfecta en cuanto a la simetría
señalaría los puntos sobre la recta y=x)

Estimación de la densidad (gráfico de densidad): permite estimar, mediante un histograma


“suavizado” la densidad de probabilidad del modelo , es decir, la densidad local de datos para cada valor
de y, mediante la “proporción de datos alrededor de y por unidad de medida, en un intervalo de amplitud
h” :

nº de observ. en ⎡⎣ y-h/2,y+h/2⎤⎦
densidad local en y =
h x nº total de observaciones

Dpto. Matemática Aplicada (Biomatemática). Facultad de Biología. U.C.M. 14


Análisis exploratorio de datos (Descriptiva).

Observación: en el diagrama o gráfico de dispersión , la agitación-separación vertical se controla con el


botón identificado por el icono con cuatro puntas de flecha.

Agitación
aleatoria

Análisis descriptivo y exploración de un conjuntos de datos


bidimensionales: observaciones de una muestra de una
población bivariante

Se consideran n observaciones de una población bivariante, es decir, los siguientes pares de valores
correspondientes a la medición de la variable bivariante (X,Y), que suponemos de tipo cuantitativo o
cualitativo recodificadas, en los n individuos o unidades estadísticas que integrarían una muestra de
tamaño n seleccionada al azar: (x1,y1), (x2,y2),...,(xn,yn). Uno de los objetivos del estudio de estos datos
bidimensionales podría consistir en la comprobación, a nivel esencialmente descriptivo, de que éstos
puedan proceder de una población con un determinado modelo de probabilidad conjunto. Para ello, las
frecuencias absolutas y relativas a nivel de zonas rectangulares Rik (producto cartesiano de dos intervalos:
Ii x Jk) pueden ser de gran ayuda:

nº de pares de la muestra en R ik
Frecuencia relativa en Rik =
n

será una estimación, sin entrar en detalles acerca de su calidad, de la siguiente probabilidad

Dpto. Matemática Aplicada (Biomatemática). Facultad de Biología. U.C.M. 15


Análisis exploratorio de datos (Descriptiva).

p(X ∈ Ii , Y ∈ Jk ) , es decir, de que X tome valores en el intervalo Ii y al mismo tiempo que Y


lo haga en Jk . Así mismo, un estudio por separado de los datos que afectan a cada variable puede servir
para identificar los modelos de probabilidad respectivos, es decir las funciones de densidad o probabilidad
marginales y, a partir de éstas últimas y la función de densidad conjunta, las funciones de densidad
condicionadas.
Desde el punto de vista gráfico, resulta de interés para datos bivariantes los histogramas tridimensionales
(gráficos de “rascacielos” según la traducción, por otro lado, no muy acertada) que consideran
paralepípedos cuyas bases son los rectangulos Rik y cuyas alturas son las frecuencias absolutas o una
cantidad proporcional, como las frecuencias relativas.

STATGRAPHICS aborda este tipo de análisis con ayuda de las opciones TABULACIÓN CRUZADA y
TABLAS DE CONTINGENCIA, correspondientes a la opción de la barra de menús DESCRIBIR.....
DATOS CATEGÓRICOS; con independencia de que se trate de variables categóricas o numéricas y,
en ambos casos, recodificadas numéricamente por intervalos.

La opción TABLAS DE CONTINGENCIA obliga a introducir las FRECUENCIAS ABSOLUTAS y


además en forma de MATRIZ, cuyas filas representan las distintas variantes o intervalos considerados
respecto de X, y cuyas columnas señalan las opciones, modalidades o intervalos respecto de Y.
Si las frecuencias siguientes se refieren a una muestra de tamaño n, en la que las unidades estadísticas se
clasifican respecto de las r opciones I1, I2, ..., Ir de una característica I; y respecto de las s posibilidades J1,
J2, ..., Js de otra característica J, entonces Zik= nº de individuos de la muestra manifestando Ii y Jk :

J1 J2 ……. Js
I1 Z11 Z12 ……. Z1s
I2 Z21 Z22 ......... Z2s
. . . ……. .
Ir Zr1 Zr2 Zrs

Esta estructura matricial ha de considerarse de alguna forma en la Hoja de Datos, definiendo para ello s
variables que contendrán las frecuencias absolutas de cada columna, respectivamente. Un ejemplo de tal
ventana de datos sería la siguiente, que surge de una muestra de tamaño 50 en la que los individuos están
clasificados en función de 5 y 3 modalidades o niveles de dos características o factores de clasificación,
respectivamente:

Una vez seleccionada la opción DESCRIBIR ..... DATOS CATEGÓRICOS ..... TABLAS DE
CONTINGENCIA, se introducirán los nombres de las variables (columnas J1, J2 y J3) que identifican a
los niveles de factor columna, y opcionalmente el nombre de la variable, en este caso Etiqueta, que
identifica los niveles del factor fila:

Dpto. Matemática Aplicada (Biomatemática). Facultad de Biología. U.C.M. 16


Análisis exploratorio de datos (Descriptiva).

Parte de los resultados de ese análisis (tabla de frecuencias absolutas y relativas, e histograma
tridimensional) se muestran en las dos siguientes figuras, observándose que en la tabla de frecuencias se
recogen así mismo las frecuencias absolutas y relativas por filas y columnas. Por ejemplo, la fracción 0.18
que corresponde a la frecuencia relativa total de la primera columna sería, en caso de que J1 fuese un
intervalo, una estimación de la probabilidad que la variable Y tomase valores en tal intervalo; mientras
que representaría una estimación de la proporción de individuos de la población manifestando la opción J1
de la característica Y, en caso de que se trate de una categórica o cualitativa. Del mismo modo, la fracción
0.24 , total de la tercera fila, podría informar , por ejemplo, acerca de la probabilidad que X tome un valor
en el intervalo I3 .

figura 9

Dpto. Matemática Aplicada (Biomatemática). Facultad de Biología. U.C.M. 17


Análisis exploratorio de datos (Descriptiva).

figura 10

La otra opción, Tabulación Cruzada, supone que los datos están recodificados con números enteros
(por ejemplo) para que el programa realice el contaje correspondiente, que da origen a la tabla de
frecuencias absolutas y relativas. Consideraremos esencialmente tres situaciones –no se abordan todas las
posibilidades- y a efectos de generar las variables o columnas que contienen las observaciones:
a) (X,Y) variables categóricas : recodificación con enteros de las observaciones, para cada variable
por separado. Las variables codificadas (dos columnas) deberán precisarse en la ventana de
configuración (o caja de diálogo de entrada de datos) de Tabulación Cruzada (ver figura 11: se
entendería que X e Y son los nombres de las variables recodificadas).
b) (X,Y) variables numéricas discretas : no es preciso codificación alguna. Los datos bivariantes de
la muestra , que figurarán en dos variables de la ventana de datos, se procesarán tal cual.
c) (X,Y) variables numéricas continuas: recodificación por separado por intervalos o clases. Las
variables codificadas serán las utilizadas en la ventana de configuración del análisis o caja de
diálogo de entrada de datos.

figura 11

Dpto. Matemática Aplicada (Biomatemática). Facultad de Biología. U.C.M. 18


Análisis exploratorio de datos (Descriptiva).

Una vez cumplimentados los campos de las dos variables de la ventana anterior, los resultados del
análisis serían similares a los de las figuras 9 y 10.

Análisis descriptivo y exploración de un conjunto bidimesional


de observaciones de una muestra de una población bivariante
(X,Y): estudio de la asociación entre X e Y
Si efectuamos la representación gráfica de un conjunto de datos bidimensionales, (x1,y1), (x2,y2),...,(xn,yn);
y se obtiene el diagrama de dispersión (scatterplot bidimensional) siguiente, seleccionando de la barra de
menús Graficar … Gráfico de Dispersión … Gráfico X-Y… ; y completando los campos con las
variables longitud_fémur y longitud_tarso , por ejemplo, del fichero de datos :

se observan indicios de una posible asociación o dependencia lineal entre X e Y. Para poner de manifiesto
el grado de asociación lineal entre las dos variables aleatorias de una población bivariante se utilizan dos
parámetros: ρXY , coeficiente de correlación entre X e Y, variando entre –1 y 1; y su cuadrado, ρ2XY ,
designado coeficiente de determinación, cuyo máximo valor es 1, señalando si tomase este valor que
la asociación lineal es perfecta, es decir, Y = α + βX, donde α = µy - βµx y β = ρσy/σx . Cuando ρ2XY
sea inferior a 1, se comprueba teóricamente que Y = (α + βX) +Z , donde Z , de valor medio cero,
disminuye su varianza a medida que ρXY se aproxima a 1 ó –1. El valor del coeficiente de
determinación puede interpretarse como el porcentaje o fracción de variabilidad de Y debida o
explicada por el término lineal (α + βX). La estimación del coeficiente de correlación y, por tanto del
determinación, se obtiene a partir de una muestra bivariante de tamaño n de la población, con el
coeficiente de correlación muestral:
n

∑ (x i
− x)(y i − y)
s xy
ρ xy =
ˆ i =1
= ,
n n
sxsy
∑ (x i
− x)
2
∑ (y i
2
− y)
i =1 i =1

∑ (x i
− x)(y i − y)
donde s xy = i =1
= cov arianza muestral
n −1

Dpto. Matemática Aplicada (Biomatemática). Facultad de Biología. U.C.M. 19


Análisis exploratorio de datos (Descriptiva).

En base a la expresión Y = (α + βX) +Z y siempre que se pudiésemos tener bajo control la variable X en
un valor x, el valor medio de la variable Yx,, es decir, de la variable Y condicionada al valor x de X,
se denomina curva de regresión , que podría ser una recta (α + βx) (recta de regresión) siempre
que E(Zx)=0, donde Zx , que designa a la variable Z condicionada al valor x de X , surge en la
descomposición

Yx = α + β x + Zx
(En realidad E(Zx) pone de manifiesto la posible diferencia entre la curva y la recta de regresión).
En este contexto de control en el valor x (lo cual puede entenderse que X ha perdido su aleatoriedad), y
siempre que E(Zx)=0, lo cual no está asegurado en general, (α + βx) es denominada recta de regresión
, x variable independiente o predictora e Y variable dependiente o respuesta.
La estimación de la recta de regresión , designada por Ŷx y denominada recta de regresión estimada,
se obtiene a partir de los n pares de valores, (x1,y1), (x2,y2),...,(xn,yn), que integran la muestra, por el
método de estimación de los mínimos cuadrados:

ˆ =ˆ
Y α +ˆ
βx , donde
x

sy
α = y −ˆ
ˆ βx , ˆ
β =ˆ
ρ xy
sx
de manera que la recta de regresión estimada estima, valga la redundancia, el valor medio o la respuesta
media de Y cuando X está controlada en el valor x.

STATGRAPHICS permite calcular todo lo anterior, seleccionando de la barra de menús la opción


Relacionar .... Un Factor …. Regresión Simple…. ; lo cual será contemplado más adelante.

Diagramas múltiples de cajas y bigotes


Desde la opción de la barra de menús Graficar .... Gráficos Exploratprios .... Gráfico de Caja y
Bigotes… Varias Muestras…, se pueden representar sobre una misma gráfica, a efectos
comparativos, diagramas de caja y bigotes correspondientes a datos de más de una variable univariante o
de una variable bivariante o multivariante. Nos ocuparemos de cómo hacerlo para dos variables (el caso
para más de dos se deduce fácilmente de éste): si los datos se encuentran en las variables cuyos nombres
fuesen longitud_tarso y longitud_fémur, de tamaños 200 y 200 (en realidad se trata de una muestra
bivariante de tamaño 200), respectivamente, se completará los campos de la forma indicada a
continuación en la ventana de configuración de la opción:

Dpto. Matemática Aplicada (Biomatemática). Facultad de Biología. U.C.M. 20


Análisis exploratorio de datos (Descriptiva).

donde el comando joint(rep(1;200);rep(2,200)) del campo Códigos por Nivel asigna el valor 1 a los datos
de longitud_tarso y el valor 2 a los de longitud_fémur, para distinguir los datos de los dos diagramas. El
panel de resultados podría tener el aspecto de la figura siguiente, observándose, por ejemplo que los datos
de longitud_tarso están menos dispersos que los de longitud_fémur, advirtiendo de la posibilidad de que
procedan de poblaciones univariantes con varianzas muy diferentes.

Figura 12

۞ CASO PRÁCTICO Nº 1 A RESOLVER POR EL ALUMNO

La variable índice plasmático (medido en ml/Kg) , del fichero de prácticas (datos_practicas.sgd),


contiene los datos de una muestra de 95 individuos. Realice un estudio descriptivo o exploratorio de esta
muestra en los aspectos cuantitativos y gráficos, con la finalidad de sugerir algún modelo de probabilidad
para la población a la cual pertenece.
(Los resultados y respuestas a las cuestiones planteadas se reflejarán en hoja anexa que será
entregada en la sesión práctica)

Dpto. Matemática Aplicada (Biomatemática). Facultad de Biología. U.C.M. 21


Estimaciones de parámetros por intervalos.

Modelos de probabilidad con Statgraphics.

La opción de la barra de menús DESCRIBIR…AJUSTE DE DISTRIBUCIONES ...


DISTRUBCIONES DE PROBABILIDAD… , permite acceder a los modelos de probabilidad más
usuales en Estadística (relación no exhaustiva en páginas 24 a 26), con los que se pueden calcular valores
de sus funciones de densidad de probabilidad y de distribución acumulada, y representaciones gráficas
correspondientes; así como los cuantiles exactos, es decir, valores de la función inversa de la función de
distribución acumulada. Una vez activada, se abrirá la siguiente ventana de configuración en la que se
seleccionará el modelo de probabilidad deseado:

Los resultados iniciales en el caso del modelo normal N(0,1) se muestran en varias ventanas (figura 13).
Para acceder, por ejemplo, al cálculo de los cuantiles (valores de la inversa de la función de distribución)
hay que seleccionar la opción Distribuciones Acumuladas Inversas, activando sobre la barra de
herramientas de análisis el botón de opciones de tablas y gráficas:

Statgraphics es capaz de simular la extracción aleatoria de muestras de cualquier tamaño de poblaciones


con las leyes o modelos de probabilidad anteriores. La generación y grabación de tales muestras se realiza
de la siguiente forma: se activa sobre la barra de herramientas de análisis el botón de opciones de tablas
y gráficas y se selecciona la opción Números Aleatorios, con lo que se añade al panel de resultados la
ventana

Dpto. Matemática Aplicada (Biomatemática). Facultad de Biología. U.C.M. 22


Estimaciones de parámetros por intervalos.

Pulsando el botón derecho del ratón sobre esta ventana se puede establecer el tamaño muestral deseado.
Para grabar los datos de la muestra en una variable del fichero de datos activo, se selecciona de la barra de
botones aquél identificado por un disquete, completándose los datos solicitados.

figura 13

Si precisamos comparar gráficamente las funciones de densidad o de distribución acumulada de dos o


más modelos de probabilidad, se puede utilizar la ventana STATGALLERY, ya que permite
representaciones gráficas conjuntas, es decir, en la misma ventana; usando la utilidad usual de copiar, una
vez se pulse el botón derecho del ratón, y pegar con la opción Sobrepuesto. Se procede, en primer lugar,
obteniendo las gráficas deseadas para los modelos por separado, se copia cada uno de ellos en la misma
ventana de las que presenta STATGALLERY, tal y como muestra la siguiente gráfica que corresponde a
las funciones de distribución de la variable binomial B(100,0.5) y la variable normal N(50,5):

Dpto. Matemática Aplicada (Biomatemática). Facultad de Biología. U.C.M. 23


Estimaciones de parámetros por intervalos.

Observación: esta versión de Statgraphics contempla los modelos de probabilidad no centrados de las
variables T de “Student”, Chi-cuadrado de Pearson y F de Fisher, que pueden ser de utilidad para el
cálculo de la potencia en determinados contrastes de hipótesis.

Algunos modelos o distribuciones de probabilidad y


aproximaciones

• Bernoulli (B(p)) : f (x ) = p x q1 − x ; x = 0,1

⎛n⎞
• Binomial (B(n,p)) : f (x ) = ⎜ ⎟ px qn− x ; x = 0,1,...., n
⎝x⎠
Aproximaciones:
• Poisson (P(np)) si n>10 ; p<0.05
• Normal ( N(np , npq ) ) ; si npq≥9; o bien np>5 (para
p ≤ 0.5) o nq>5 (para p>0.5); o bien np≥5 y nq≥5.

⎛ m⎞ ⎛ N − m⎞
⎜ x ⎟⎜ n − x ⎟
• Hipergeométrica : f (x ) =
⎝ ⎠⎝ ⎠ ; x = 0, 1,...., n ; (n≤m)
⎛N⎞
⎜n⎟
⎝ ⎠
Aproximaciones (p=m/N):
• Binomial (B(n,p)) si n/N<0.1 ; N≥60
• Poisson (P(np)) si n/N<0.05
N −1
• Normal N(np, npq ) ; si np≥4
n −1

1
• Uniforme discreta : f (x ) = ; x = a+1, a+2, ...., a+n
n

• Geométrica: f (x ) = pq x −1 , x = 1,2,..... (X=nº de ensayos conducentes al primer éxito)

⎛ x − 1⎞ r x −r
• Binomial negativa : f (x ) = ⎜ ⎟p q ; x = r, r+1, .... (X=nº de ensayos hasta
⎝ r − 1 ⎠
conseguir r éxitos)

• Si se considera Y=X-r = nº de fracasos previos al r-ésimo éxito, se obtiene una segunda versión de
este modelo binomial negativa, con densidad
⎛ y + r − 1⎞ r y
f (y ) = ⎜ ⎟p q , y=0,1,2,...
⎝ r −1 ⎠

Dpto. Matemática Aplicada (Biomatemática). Facultad de Biología. U.C.M. 24


Estimaciones de parámetros por intervalos.

−λ λx
• Poisson (P(λ)) : f (x ) = e ; x = 0, 1,...
x!
Aproximación Normal : N(λ , λ) , si λ ≥9

α p x p −1e − αx
• Gamma (G(α, p)) : f (x ) = , x>0, (α, p constantes >0)
Γ(p)
x

α −1 β
x e
(o bien, G(α, β) con f (x ) = , x>0, (α,β constantes >0), α = parámetro de forma y
β α Γ(α)
1/β = parámetro de escala )

• En el contexto de la ecología de poblaciones suele utilizarse una tercera variante de la variable


binomial negativa que surge al combinar el modelo de Poisson con la variable Gamma y que
depende de dos parámetros positivos (no necesariamente enteros) m (su valor medio) y k, cuya
función de probabilidad presenta la siguiente forma

( x + k − 1)! k x
f (x) = p q , x=0,1,2,...
x !(k − 1)!
k
donde p= , q=1-p , (x+k-1)!=Γ(x+k) , (k-1)!=Γ(k)
k+m

• Chi-cuadrado ( χ (n) ) : variable G(1/2, n/2), n entero >0.


2

Aproximación normal: N(n, 2n ) si n≥30


Aproximación normal: 2 χ (n) − 2 n -1 es N(0,1) si n≥30.
2

n ⎡2 χ2 ⎤
Aproximación normal: 3 ⎢ + − 1⎥ es una variable N(0, 1) si n≥30.
2 ⎢⎣ 9n n ⎥⎦

• Variable de Erlang (distribución de Erlang): variable G(α , r) , r entero >0.

• Exponencial de parámetro α : variable G(α , 1)


1 ( x − µ )2
1 −
2 σ2
• Normal ( N(µ , σ) ) : f (x ) = e , x cualquier número real.
σ 2π
• Log-normal (por definición, si ln (X) es N(µ , σ) ) :

1 (ln x − µ )2
1 −
f (x) = e 2 σ2
, x>0
x σ 2π
donde
µ = valor medio de ln(X)
σ2 = varianza de ln(X)

Dpto. Matemática Aplicada (Biomatemática). Facultad de Biología. U.C.M. 25


Estimaciones de parámetros por intervalos.

• T o t de “Student” con k grados de libertad:

⎛k + 1⎞
Γ⎜ ⎟ ⎛
⎛ k +1 ⎞
−⎜ ⎟
⎝ 2 ⎠ 1+ t 2
⎞ ⎝ 2 ⎠
f(t) = ⎜ ⎟ , t cualquier número real
⎛k ⎞ ⎝ k⎠
πk Γ ⎜ ⎟
⎝2⎠
Para k≥30, los valores críticos2 pueden aproximarse mediante la expresión
3
tα = zα + (zα + zα ) / 4k , donde zα son los correspondientes a la distribución N(0, 1) .

• Distribución F de Fisher con (m,n) grados de libertad:


m
m−2
⎛m + n⎞ ⎛m⎞2
Γ⎜ ⎟⎜ ⎟ f
2

g(f) = ⎝ 2 ⎠⎝n⎠ , si f>0


m+n
⎛m⎞ ⎛n⎞⎛ m ⎞ 2
Γ ⎜ ⎟ Γ ⎜ ⎟ ⎜1 + f
⎝ 2 ⎠ ⎝2⎠⎝ n ⎟⎠
Si m y n ≥30, los valores críticos pueden ser aproximados de la manera siguiente: para
1 1 2
r= − , s= se tiene
m n 1 1
+
m n
1.1131
ln(f0.1 ) = ( − 0.527r) / 0.4343
s − 0.77
1.4287
ln(f0.05 ) = ( − 0.681r) / 0.4343
s − 0.95
1.7023
ln(f0.025 ) = ( − 0.846r) / 0.4343
s − 1.14
Cuando el nº de grados de libertad es considerable, se utiliza la aproximación
2(m + n)
ln(fα ) = zα , donde zα son los correspondientes a la distribución N(0, 1) .
mn

⎧ 2(x − a)
⎪ (b − a)(c − a) a ≤ x ≤ c

• Triangular : f (x ) = ⎨
⎪ 2(b − x ) c ≤ x ≤b
⎪⎩ (b − a)(b − c)

1
• Uniforme continua : f (x ) = , a≤x≤b
b−a

2
Para una variable aleatoria X, su valor crítico de tamaño α, designado por xα , donde 0<α<1,
corresponde al cuantil de orden 1-α, es decir, xα = c1-α . En otras palabras, xα es el mayor valor tal que
p(X ≥ xα ) ≥ α .

Dpto. Matemática Aplicada (Biomatemática). Facultad de Biología. U.C.M. 26


Estimaciones de parámetros por intervalos.

Contraste sobre la ley de probabilidad de poblaciones


(variables aleatorias). Bondad de Ajuste

A pesar de que la literatura estadística recoge numerosos procedimientos y estadísticos respecto de los
test de bondad de ajuste, aludiremos sólamente a los tres de mayor difusión y que prácticamente
resuelven las situaciones más generales:

• Test basado en la distribución chi cuadrado de Pearson

Para desarrollar el contraste ⎧H0 : F(y) = F (y) para todo y



0

⎩H1 : F(y) ≠ F (y) 0


para algún y

en base a una muestra de tamaño n , Y1 , Y2 ,…, Yn , extraída de Y, y respecto de F0 ,


distribución de probabilidad acumulada específica, Karl Pearson ideó en 1900 un
procedimiento basado en el modelo de probabilidad χ .
2

Los estadísticos de Pearson y el de Pearson-Fisher (1924) tienen, respectivamente, la forma


2 2
k
(X i − npi ) k
(Oi − Ei )
2
X = Q = Uk = ∑ npi
= ∑ Ei
, con distribución
i =1 i =1

aproximada χ2 (k − 1)
y
k ˆ)
(X − nP
2 k ˆ)
(O − E
2
2
X = Q = Uk = ∑ i nPˆ i = ∑ i Eˆ i , con distribución
i =1 i
i =1 i

aproximada χ2 (k − r − 1)
donde, en el estadístico de Pearson-Fisher, r = nº de parámetros desconocidos de la distribución
F0, que son estimados a partir de las observaciones; Xi = nº de observaciones entre las n en el
i.ésimo intervalo o clase; pi = p(Y tome valores en el i.ésimo intervalo); P̂i = estimador de esta
probabilidad.
Debido a su relativa falta de potencia, respecto de los procedimientos basados en las funciones
de distribución empíricas (tests EDF), se recomienda su uso si Y es discreta, ya que, en el caso
continuo, el procedimiento de Pearson “discretiza” de alguna forma la distribución F0.

CASO PRÁCTICO RESUELTO que deberá reproducir el alumno.

Se desea contrastar que la concentración de un microorganismo (nº de especímenes /ml) en una


placa de conteo sigue el modelo de Poisson de parámetro λ desconocido, lo cual significaría que
la distribución o reparto de dicho organismo en la placa se ha hecho al azar. En el fichero
datos_practicas.sgd, la variable microorg_ml contiene los datos correspondientes a 100 placas.
La opción de la barra de menús DESCRIBIR…AJUSTE DE DISTRIBCIONES... AJUSTE
DE DATOS NO CENSURADOS… , permite acceder a los tests de bondad de ajuste. En la
ventana de configuración del análisis seleccionaremos la variable (el fichero de datos debe estar
abierto):

Dpto. Matemática Aplicada (Biomatemática). Facultad de Biología. U.C.M. 27


Estimaciones de parámetros por intervalos.

Seguidamente, en las opciones de análisis seleccionaremos únicamente el modelo de Poisson:

En las opciones de tablas y gráficos activamos el recuadrado de Pruebas de Bondad de Ajuste:

La ventana de resultados de Pruebas de bondad de Ajuste corresponde por defecto al test basado
en el estadístico de Kolmogorov; de manera que, al tratarse del modelo de Poisson, debemos
seleccionar el basado en la distribución chi-cuadrado, en las Opciones de Ventana… , que se
muestra al pulsar el botón derecho del ratón:

Dpto. Matemática Aplicada (Biomatemática). Facultad de Biología. U.C.M. 28


Estimaciones de parámetros por intervalos.

La subventana de resultados izquierda-abajo siguiente suministra el valor de estadistico y el P-


valor del contraste
4 ˆ )2
(X i − nP 4 ˆ)
(Oi − E
2
2
X = q = u4 = ∑ nPˆ i = ∑ Eˆ i = 1.28653 , de la distribución
i =1 i
i =1 i

2
χ (2) ; (K=4, r=1)
2
P − valor = p(χ (2) ≥ 1.28653) = 0.525573

Tal resultado no permite rechazar tal modelo de probabilidad.

Dpto. Matemática Aplicada (Biomatemática). Facultad de Biología. U.C.M. 29


Estimaciones de parámetros por intervalos.

۞ CASO PRÁCTICO Nº 2 A RESOLVER POR EL ALUMNO


En un trabajo publicado por Bliss y Fisher (Biometrics 9, 1953) se analiza el modelo de
probabilidad de la variable = nº de ácaros (Panonychus ulmi) por hoja , en manzano de la
variedad McIntosh. Los datos correspondientes se encuentran en la variable nº ácaros por hoja
del fichero de prácticas, con el fin de que el alumno contraste su adecuación al modelo de
Poisson, utilizando el estadístico de Pearson-Fisher. (Los resultados y respuestas a las
cuestiones planteadas se reflejarán en hoja anexa que será entregada en la sesión
práctica).

Como se habrá comprobado los datos no soportan la hipótesis del modelo de Poisson. La razón
de ello radica –quizás- en los distintos tamaños de las hojas consideradas en la muestra, que
conduciría a considerar que a cada tamaño de hoja le correspondería un parámetro λ, es decir, el
parámetro se convierte entonces en una variable aleatoria de modelo Gamma, tal y como
formuló Fisher en el trabajo aludido anteriormente. La mezcla de la variable de Poisson con la
Gamma da como resultado la tercera variante del modelo binomial negativa (ver pág. 25 de este
guión). Contraste tal modelo de probabilidad para esta variable discreta, utilizando de nuevo el
estadístico de Pearson-Fisher.

• Test basado en el estadístico de Kolmogorov-Smirnov.

Como ya fue comentado anteriormente, el procedimiento que recurre a la distribución chi-


cuadrado es apropiado sobre todo para variables discretas. En el caso de poblaciones continuas
se suele recurrir al estadístico Dn cuya distribución fue establecida por Kolmogorov y Smirnov.
Supóngase que el contraste alude al modelo de probabilidad de la variable X, siendo F su
funcion de distribución:

RS H : F(x)
0 = F0 (x) para todo x
T H : F(x)
1 ≠ F0 (x) para algún x

donde F0 es una función de distribución específica.


Para una muestra de tamaño n se considera el estadístico

Dn = sup x Sn ( x ) − F0 ( x )
donde

nº de observ. en la muestra ≤ x
Sn ( x ) =
n
hace referencia a la función de distribución empírica (EDF).
Si la hipótesis nula fuese cierta, el valor dn de Dn no debe ser excesivamente grande. Por tanto,
el criterio de rechazo de H0 para un nivel de significación α será:

RECHAZO DE H0 ⇔ dn ≥ dn,α
⇔ P-valor = p(Dn≥ dn)≤α
(valores críticos tabulados)

CASO PRÁCTICO RESUELTO que deberá reproducir el alumno.

Con el fin de contrastar que la variable T = duración del ciclo celular (en minutos) del bacilo B.
micoydes sigue el modelo de probabilidad Gamma , se tomaron los tiempos de vida de una
muestra de 20 bacilos de la especie citada, obteniéndose los siguientes resultados que figuran en
el fichero de prácticas, en la variable duracion_ciclo_B_mycoides.

Dpto. Matemática Aplicada (Biomatemática). Facultad de Biología. U.C.M. 30


Estimaciones de parámetros por intervalos.

De nuevo, procederemos a utilizar la opción de la barra de menús, DESCRIBIR…AJUSTE DE


DISTRIBCIONES... AJUSTE DE DATOS NO CENSURADOS…. . En la ventana de
configuración del análisis seleccionaremos la variable (el fichero de datos debe estar abierto):

Se selecciona a continuación el modelo Gamma:

La subventana izquierda-abajo siguiente suministra el valor del estadístico y el P-valor del


contraste:

Dpto. Matemática Aplicada (Biomatemática). Facultad de Biología. U.C.M. 31


Estimaciones de parámetros por intervalos.

También podemos encontrar en el panel de resultados las estimaciones de los parámetros de


forma y escala:

α = 3.03
ˆ
1
= 0.095
ˆ
β

El valor de estadístico de Kolmogorov y el correspondiente P valor ;

d20=0.0954476
P-valor = p(D20 ≥ 0.0954476)=0.993
, N0 permiten el RECHAZO de la hipótesis de que la variable se distribuya según el modelo de
probabilidad Gamma.

۞ CASO PRÁCTICO Nº 3 A RESOLVER POR EL ALUMNO


En la variable IOP del fichero de prácticas se encuentran 175 observaciones que corresponden a
los valores de presión intraocular (en mm Hg) de conejos albinos. Estos datos serán utilizados
para reproducir las conclusiones del trabajo: The pattern of distribution of intraocular pressure
in the albino rabbit (Graefe’s Arch Clin Exp Opthalm, 224 , 1986). Contraste que dicha variable
sigue el modelo Log-normal. (Los resultados y respuestas a las cuestiones planteadas se
reflejarán en hoja anexa que será entregada en la sesión práctica) .

• Test de normalidad basado en el estadístico de Shapiro y


Wilk.

Presentamos a continuación el test, específico sobre normalidad, que recurre al estadístico W


de Shapiro y Wilk (An Analysis of Variance Test for Normality, Biometrika, 52, 1965) y que
está considerado , en términos generales , el procedimiento más adecuado (de mayor potencia)
para este modelo de probabilidad, y que se enmarca dentro de los tests basados en modelos de
regresión lineal.
En caso de normalidad, el estadístico de Shapiro y Wilk compara, básicamente, mediante un
cociente, dos estimadores independientes de la varianza, σ2, uno de los dos parámetros que
definen el modelo de probabilidad N(µ,σ). Para ello considera una muestra ordenada de la
supuesta población normal , Y(1),…,Y(n) , y el modelo de regresión Y(i) = µ+σm(i)+εi , donde m(i)
=E(X(i)) , para una muestra ordenada X(1),…,X(n) , de una población normal estándar. De la
estimación por mínimos cuadrados de los parámetros de este modelo de regresión surge uno de
los estimadores de la varianza , concretamente para σ se obtiene

m' V −1Y
σ=
ˆ , donde m' = (E(X(1) ),E(X(2) ),...,E(X(n) )
m' V −1m
X(i) = i-ésimo estadístico de orden
V = matriz de covarianzas entre X(i) y X(j)
Y = vector columna de las datos ordenados, Y(1) ,Y(2) ,...,Y(n)

Dpto. Matemática Aplicada (Biomatemática). Facultad de Biología. U.C.M. 32


Estimaciones de parámetros por intervalos.

El anterior estimador, junto con la varianza muestral usual, S2, definen el estadístico de
Shapiro y Wilk

b2
W= , donde
(n − 1)S2
R4 2
b2 = σ , R y C constantes:
ˆ
C2
R 2 = m' V −1m , C2 = m'(V −1 )2 m

A la hora de de desarrollar el correspondiente contraste:

⎧H0 : La muestra Y1 , Y2 ,..., Yn procede de una población N(µ ,σ )



⎨ donde µ y σ son desconocidos
⎪H :
⎩ 1 no es el caso

dado que en poblaciones no normales el valor medio de W tiende a ser bastante menor que el
que corresponde a la hipótesis nula, de normalidad (en donde E(W) es relativamente próximo a
1), estamos ante un contraste unilateral de cola inferior, con criterio de rechazo de la hipótesis
nula (para un nivel de significación α)

RECHAZO DE H0 ⇔ w ≤ wn,α
⇔ P-valor = p(Wn≤ wn)≤α

(wn,α valor crítico aproximado tabulado)

CASO PRÁCTICO RESUELTO que deberá reproducir el alumno.

La variable índice plasmático (medido en ml/Kg) , del fichero de prácticas, contiene los datos de
una muestra de 95 individuos. Contrastaremos la normalidad de la variable implicada, con la
opción de la barra de menús DESCRIBIR…AJUSTE DE DISTRIBCIONES... AJUSTE DE
DATOS NO CENSURADOS…. . En la ventana de configuración del análisis seleccionaremos
la variable (el fichero de datos debe estar abierto):

Dpto. Matemática Aplicada (Biomatemática). Facultad de Biología. U.C.M. 33


Estimaciones de parámetros por intervalos.

Después de haber seleccionado el modelo Normal, procederemos a activar Pruebas de


Normalidad en el panel de opciones de Tablas y Gráficos:

Los resultados se muestran en la el siguiente panel:

El P-valor obtenido aboga por la normalidad de la variable.

۞ CASO PRÁCTICO Nº 4 A RESOLVER POR EL ALUMNO


Con el fin de contrastar la eficacia de un fármaco contra la hipertensión, se requiere un contraste
previo del normalidad de la diferencia, en el mismo individuo, entre la presión arterial diástólica
antes y después de la aplicación del medicamento. Las variables PADA y PADD contienen las
observaciones de 14 individuos, para tal contraste de normalidad de la diferencia PADA-PADD
(Los resultados y respuestas a las cuestiones planteadas se reflejarán en hoja anexa que
será entregada en la sesión práctica) .

Dpto. Matemática Aplicada (Biomatemática). Facultad de Biología. U.C.M. 34


Estimaciones de parámetros por intervalos.

Estimación de parámetros usuales mediante intervalos de


confianza.

• Proporciones respecto de la distribución binomial.

En primer lugar, abordaremos la estimación por intervalos del parámetro p (probabilidad de


“éxito” en ensayos independientes de Bernoulli), y que afecta al modelo binomial B(n.p) (ver
pág. 24 de este guión.) Como bien es sabido, el método clásico de estimación aproximado y que
recurre al modelo de probabilidad normal, es apropiado cuando n, el tamaño muestral, es
grande y cuando se intuye que el parámetro p no se alejará sustancialmente de 0.5. Existen en los
distintos manuales de estadística una buena cantidad de reglas más o menos justificadas en las
que se concretan estas condiciones de aproximación. Citemos, por ejemplo, una de las más
empleadas: np(1-p) ≥ 9. Bajo estas condiciones, la variable

P̂ − p
es asíntoticamente N(0,1)
ˆ 1 − P)
P( ˆ
n
Y nº de éxitos
donde P̂ = =
n nº de ensayos

y la estructura del intervalo de confianza que se deriva para el párametro p, al nivel 1- α, es

ˆ 1 − p)
p( ˆ ˆ 1 − p)
p( ˆ
ˆ α/2
(p-z ˆ α/2
, p+z )
n n
o de forma equivalente
y y y y
(1 − ) (1 − )
y n n , y +z n n )
( -zα/2 α/2
n n n n
Si no estamos ante buenas condiciones de aproximación, basta con inspeccionar esta estructura
de intervalo de confianza para observar efectos indeseados, como, por ejemplo, que alguno de
los extremos del intervalo pueda estar fuera de [0,1].
Por todo ello y con la finalidad de utilizar un procedimiento “exacto”, aplicable a las situaciones
más usuales, Statgraphics y prácticamente cualquier software estadístico, recurre al siguiente
formato de intervalo para el parámetro p, al nivel 1- α:

(pL , pU ) , donde pL y pU son, respectivamente, soluciones de


n
⎛n⎞ α
p(Y ≥ y) = ∑ ⎜k ⎟ p K
L (1 − pL )n−k =
2
⎝ ⎠
k =y
y
⎛n⎞ α
p(Y ≤ y) = ∑ ⎜ ⎟ pKU (1 − pU )n−k =
k =0 ⎝ k ⎠ 2
y = valor observado de "éxitos"

La solución de las ecuaciones anteriores requiere de métodos númericos y su dificultad crece a


medida que n aumenta. Sin embargo, existe un procedimiento totalmente equivalente de cálculo

Dpto. Matemática Aplicada (Biomatemática). Facultad de Biología. U.C.M. 35


Estimaciones de parámetros por intervalos.

de estos extremos (que es el utilizado por Statgraphics), que recurrre a la distribución F de Fisher
y que puede ser consultado en el excelente apéndice A del trabajo: A comparison of approximate
interval estimators for the Bernoulli parameter, The American Statistician, 50, 1 63-68 (1996). A
continuación presentamos su forma:

1 1
(pL , pU ) = ( , )
n− y +1 n−y
1+ 1+
yf2 y ,2(n− y +1),1−α /2 (y + 1)f2(y +1),2(n− y),α / 2
donde y es el valor observado de "éxitos"

CASO PRÁCTICO RESUELTO que deberá reproducir el alumno.

En el fichero de prácticas se reproduce una tabla de contingencia 2x6 (variables: Placebo,


Fármaco 1, Fármaco 2, … , Fármaco 5) que hace referencia al efecto terapéutico de 5 fármacos
contra la depresión. A cada uno de los pacientes deprimidos de seis grupos seleccionados al azar
de tamaño 30 se les aplica uno de los cinco fármacos o un placebo, y al cabo de dos semanas se
analiza si “su estado ha mejorado=éxito” o si “su estado es el mismo o ha empeorado=fracaso”
(datos reproducidos de un ejemplo de The Analysis of Contingency Tables, B.S. Everitt,
Chapman and Hall ed. 1977). Vamos a estimar por intervalos, al nivel de confianza del 90 y
95%, la proporción exacta de pacientes menos deprimidos para cada uno de los fármacos y el
placebo. Para ello, precisaremos para cada grupo la estimación puntual de “éxitos”, que puede
ser establecidacon ayuda de una calculadora o bien a partir de la tabla de contingencia,
seleccionando de la barra de menús la opción DESCRIBIR…DATOS
CATEGÓRICOS…TABLAS DE CONTINGENCIA…y completando los campos con los
nombres de las variables:

Se comprueba en el panel de opciones de Tablas y Gráficos que se encuentra activada Tabla de


Frecuencias:

Dpto. Matemática Aplicada (Biomatemática). Facultad de Biología. U.C.M. 36


Estimaciones de parámetros por intervalos.

y a continuación, sobre la subventana o panel de resultados Tabla de Frecuencias se pulsa el


botón derecho de ratón, se selecciona Opciones de Ventana y en el menú desplegado se
marca el recuadro Porcentajes por Columna. De este modo, se presentan las estimaciones
puntuales (subrayadas) deseadas (a la subventana se añaden las proporciones estimadas por
columnas):

Con cada estimación puntual del parámetro p anotada (por ejemplo, la que corresponde al
fármaco 5), se selecciona la opción de la barra de menús DESCRIBIR…DATOS
NUMERICOS (O DATOS CATEGÓRICOS)…PRUEBAS DE HIPÓTESIS…, que además
de desarrollar algunos contrastes de hipótesis -como se verá más adelante- determina estimación
por intervalos de proporciones, valor medios y varianzas de variables normales y del parámetro
λ de una variable de Poisson. En nuestro ejemplo, se activa la opción PROPORCION
BINOMIAL y se completan los campos PROPORCION DE LA MUESTRA y TAMAÑO DE
MUESTRA , con 0.6333 y 30 (fig. 14) (el campo Hipótesis Nula se puede dejar tal cual ya que
no afecta al intervalo de confianza); y en el siguiente panel (fig. 15) se comprueba que la opción
No Igual (caso del intervalo con cota inferior y superior) está activada y que en el campo
ALPHA aparece el valor 5, es decir, la unidad menos el nivel de confianza considerado.
Finalmente, se obtiene el resultado para el nivel de confianza del 95% en la figura 16:
Para el intervalo de confianza al 90%, se pulsa el botón derecho del ratón en la ventana de
resultados y sobre el menú desplegado se pulsa OPCIONES DE ANÁLISIS, y se cambia 5

Dpto. Matemática Aplicada (Biomatemática). Facultad de Biología. U.C.M. 37


Estimaciones de parámetros por intervalos.

por 10 en el campo ALPHA (fig.17). De esta forma, se presentan los resultados tal y como se
reflejan en la figura 18.

Figura 14

Figura 15

Figura 16

Dpto. Matemática Aplicada (Biomatemática). Facultad de Biología. U.C.M. 38


Estimaciones de parámetros por intervalos.

Figura 17

Figura 18

Obsérvese que a mayor confianza, mayor amplitud de intervalo, lo que se traduce en mayor
imprecisión en la estimación.

۞ CASO PRÁCTICO Nº 5 A RESOLVER POR EL ALUMNO


Las variables del ficheros de datos: Grupo O, Grupo A, Grupo B y Grupo AB; configuran una
tabla de contingencia 5x4, relativa a dos factores cualitativos de clasificación: sintomatología de
una enfermedad (cinco niveles excluyentes: S1, S2, S3, S4, S5) y el grupo sanguíneo (cuatro
niveles); que corresponde a una muestra de 2373 afectados. Se trata de establecer intervalos de
confianza al 95% de la proporción exacta de afectados con el síntoma S2; de la proporción
exacta de afectados con el síntoma S2 y que presentan al mismo tiempo el grupo sanguíneo AB;
de la proporción exacta de afectados manifestando el síntoma S2, entre los que pertenecen al
grupo sanguíneo AB (hemos de suponer que éstos forman una muestra de la población definida
por todos los afectados con grupo AB). (Los resultados y respuestas a las cuestiones
planteadas se reflejarán en hoja anexa que será entregada en la sesión práctica) .

• Valor medio y varianza en una población normal N(µ,σ)

Seguidamente, abordaremos la estimación por intervalos de µ, el valor medio o media de una


variable poblacional con distribución normal N(µ,σ), y con varianza desconocida. Bajo la
hipótesis de normalidad la variable X en estudio, y para un tamaño muestral n, es bien conocido
que

X−µ
es una var iable T de "Student " con n − 1
S/ n
grados de libertad, donde X y S2 son la media y
la varianza muestral, respectivamente

Dpto. Matemática Aplicada (Biomatemática). Facultad de Biología. U.C.M. 39


Estimaciones de parámetros por intervalos.

lo que permite establecer -por la técnica habitual- la estructura del intervalo de confianza para µ,
siguiente, al nivel 1-α,

s s
(µL , µU ) = (x − tn−1,α /2 ,x + tn−1,α /2 )
n n
x y s , valores obtenidos en la muestra

CASO PRÁCTICO RESUELTO que deberá reproducir el alumno.

La variable longitud_tarso (medida en mm.), del fichero de datos de prácticas, recoge las
observaciones de esta magnitud anatómica en una muestra de tamaño 200 y que corresponden a
una especie de escarabajo. Vamos a establecer una estimación por intervalos, al 95%, para la
longitud media de tarso, en base a lo expuesto anteriormente. Dado que requerimos la
normalidad de esta variable, procedemos a su contraste con la prueba de ajuste basada en el
estadístico de Shapiro y Wilk, tal y como ha sido desarrollado anteriormente (ver págs. 32-34):

Seguidamente, procedemos a la estimación por intervalos, seleccionando en la barra de menús


DESCRIBIR…DATOS NUMERICOS…Análisis de Una Variable…; introduciendo el
nombre de la variable y seleccionando en el panel de opciones de tablas y Gráficos la opción
Intervalos de Confianza :

Dpto. Matemática Aplicada (Biomatemática). Facultad de Biología. U.C.M. 40


Estimaciones de parámetros por intervalos.

De manera que con una certeza del 95%, podemos afirmar que la longitud media de tarso de la
especie si sitúa entre 1.73 y 1.77 mm.; o bien, que si tomamos como valor de longitud media de
tarso la cantidad 1.75, es decir la media muestral, el error máximo cometido es 0.02 mm; bien
entendido si el intervalo contiene el valor exacto de dicho parámetro, con la certeza o confianza
señalada.
Otra forma de obtener el mismo resultado, se basa en el cálculo previo de las estimaciones
puntuales del valor medio y de la varianza, 1.75038 y 0.021572 (desviación típica muestral
0.146721) y recurrir al procedimiento descrito en el último párrafo del la página 37,
seleccionando la opción de la barra de menús DESCRIBIR…DATOS NUMERICOS (O
DATOS CATEGÓRICOS)…PRUEBAS DE HIPÓTESIS…, En nuestro caso, se activa la
opción Media Normal y se completan los campos Media Muestral, Sigma Muestral y
Tamaño muestral , etc…; obteniéndose finalmente el intervalo al nivel de confianza del 95%,
tal y puede observarse en los paneles siguientes:

Dpto. Matemática Aplicada (Biomatemática). Facultad de Biología. U.C.M. 41


Estimaciones de parámetros por intervalos.

۞ CASO PRÁCTICO Nº 6 A RESOLVER POR EL ALUMNO


Se partirá de otra variable anatómica, longitud_fémur (medida en mm.), del fichero de datos de
prácticas, que corresponden a la misma especie de escarabajo y a la misma muestra. Se deberá
establecer estimaciones por intervalos, al 95% y al 99%, para la longitud media de fémur , y
para la varianza de esta variable poblacional. (Los resultados y respuestas a las cuestiones
planteadas se reflejarán en hoja anexa que será entregada en la sesión práctica). Se
recuerda que bajo la hipótesis de normalidad de la variable poblacional, se tiene que

(n − 1)S2 χ2 con n − 1
se distribuye según el mod elo
σ2
grados de libertad, donde S2 y σ2 son la varianza
muestral y poblacional , respectivamente

lo que conduce a la estructura siguiente de intervalo de confianza para σ2 , al nivel 1-α :

⎛ (n − 1)s2 (n − 1)s2 ⎞
⎜⎜ , ⎟⎟
⎝ χ n − 1 , α / 2 χ n − 1 ,1 − α / 2 ⎠
2
donde s es la estimación puntual obtenida de la varianza

• Intervalos de confianza unilaterales (de cota inferior o


superior)
La estimación por intervalos, respecto de un parámetro poblacional y expuestos previamente, son
bilaterales, es decir, con límites o cotas inferior y superior establecidos en base a la información
muestral. Sin embargo, en determinado contextos puede ser de interés la estimación con
intervalos de cota inferior o de cota superior, lo cual se puede ilustrar por ejemplo, respecto del
valor medio, en poblaciones normales con varianza desconocida. De las expresiones
probabilísticas equivalentes siguientes (téngase en cuenta que la medida de probabilidad afecta
exclusivamente a los estadísticos media y varianza muestral):

X−µ S
p( ≤ tn−1,α )=1-α ⇔ p(µ ≥ X − tn−1,α ) =1− α
S/ n n

surge la estructura del intervalo de confianza de cota inferior para el valor medio, al nivel
1-α :
s
(µL , ∞) = (x − tn−1,α , ∞)
n
x y s , valores obtenidos en la muestra
y de forma similar se obtendría la estructura del intervalo de confianza de cota superior

Dpto. Matemática Aplicada (Biomatemática). Facultad de Biología. U.C.M. 42


Estimaciones de parámetros por intervalos.

s
(-∞ , µU ) = (−∞ , x + tn−1,α )
n
x y s , valores obtenidos en la muestra

CASO PRÁCTICO RESUELTO que deberá reproducir el alumno.

En el caso práctico nº 4, a resolver por el alumno (ver pág. 34) se planteaba contrastar la
normalidad de la diferencia PADA-PADD (diferencia entre la presión arterial diástólica antes y
después de la aplicación de un fármaco), y se disponía de los datos suministrados por 14
individuos hipertensos (datos apareados). Con estos datos del fichero de prácticas, vamos a
determinar un intervalo de confianza de cota inferior para el valor medio de la diferencia de estas
variables. De la barra de menús seleccionamos la opción DESCRIBIR…DATOS
NUMERICOS…Análisis de Una Variable…; y completamos la ventana de configuración
del análisis:

Seleccionamos como previamente la opción Intervalos de Confianza en el panel de opciones


de Tablas y Gráficos; y sobre el panel de resultados se pulsa el botón derecho del ratón y en el
menú desplegado se selecciona Opciones de Ventana, marcándose a continuación la opción
Cota Inferior:

De este modo resulta el intervalo de confianza de cota inferior, al 95%:

Dpto. Matemática Aplicada (Biomatemática). Facultad de Biología. U.C.M. 43


Estimaciones de parámetros por intervalos.

El intervalo obtenido (al nivel 0.95)

sD
(µL , ∞) = (d − tn−1,α , ∞) = (0.8 , ∞)
n
d y sD , valores de la diferencia obtenidos en la muestra

puede ser interpretado de la forma siguiente: con una confianza del 95%, se puede afirmar que
en media el fármaco reduce un mínimo de 0.8 cm de Hg la presión arterial diastólica.

۞ CASO PRÁCTICO Nº 7 A RESOLVER POR EL ALUMNO


Las variables Vacunados y No Vacunados, del fichero de prácticas, definen una tabla de
contingencia 2x2, cuyos datos corresponden a los resultados de un ensayo clínico que trata de
comprobar la eficacia de una vacuna contra la gripe. Afecta a dos grupos o muestras
independientes (tratados con vacuna y tratados con placebo) de 400 individuos, figurando en la
primera fila de la tabla los éxitos (no contraen la gripe) y los fracasos en la segunda (contraen la
gripe). El alumno deberá valorar la eficacia de la vacuna con ayuda de un intervalo de
confianza unilateral , al 97.5%, para la diferencia de parámetros:

pT -pNT , donde
p T = proporción exacta de imnunes vacunados
pNT = proporción exacta de imnunes no vacunados

Se recuerda que para variables binomiales independientes, tipos B(n1,pT) y B(n2,pNT), se tiene
que
ˆ −P
P ˆ − (p − p )
T NT T NT
es asíntoticamente N(0,1)
ˆ (1 − P
P ˆ) Pˆ (1 − P
ˆ )
T T
+ NT NT
n1 n2
donde P̂T = proporción de éxitos en n1 ensayos (tratados)
ˆ = proporción de éxitos en n ensayos (no tratados)
PNT 2

por lo que la estructura del intervalo de confianza bilateral, al nivel 1-α, es

⎛ ˆT (1 − p
p ˆT ) p
ˆ (1 − p
ˆNT ) ˆT (1 − p
p ˆT ) p ˆNT ) ⎞
ˆ (1 − p
ˆT − p
⎜ (p ˆNT )-z α/2 + NT ˆT − p
, (p ˆNT )+z α/2 + NT ⎟
⎝ n1 n2 n1 n2 ⎠
zα/2 = cuantil de orden 1-α / 2

Para los intervalos unilaterales de cota inferior y de cota superior, basta con considerar los
límites inferior y superior, respectivamente, del intervalo bilateral anterior, salvo que el cuantil
es de tamaño 1-α.
La opción de la barra de menús de Statgraphics que se debe seleccionar, para una par de
muestras independientes de poblaciones tipo Bernoulli, es COMPARAR … DOS MUESTRAS
….PRUEBAS DE HIPÓTESIS… ; se selecciona Proporciones Binomiales y se
completan los campos solicitados, etc …(Llegados a este punto del guión, el alumno debería, de
manera autónoma, finalizar el caso práctico) (Los resultados y respuestas a las cuestiones
planteadas se reflejarán en hoja anexa que será entregada en la sesión práctica).

Dpto. Matemática Aplicada (Biomatemática). Facultad de Biología. U.C.M. 44


Estimaciones de parámetros por intervalos.

۞ CASO PRÁCTICO Nº 8 A RESOLVER POR EL ALUMNO


En un estudio realizado por White y Froeb (New England Journal of Medicine 302(13):720-723,
1980) se investiga el efecto que sobre la función respiratoria de los no fumadores puede tener el
hecho de convivir con individuos fumadores. Para tal fin se valoró la función respiratoria de
individuos pertenecientes a cada uno de los siguientes grupos: No fumador (nivel 1); Fumador
pasivo (nivel 2); Fumador no inhalante (nivel 3); Fuma 1-10 cigarrillos (nivel 4); Fuma 11-39
cigarrillos (nivel 5); Fuma más de 40 cigarrillos (nivel 6). Las variables FVC (capacidad vital
forzada, en litros de aire) y Nivel fumador, del fichero de prácticas, contienen datos simulados
que tratan de reproducir lo mencionado en el estudio, y que afectaría a 200 mujeres por grupo.
El alumno deberá analizar, mediante un intervalo de confianza al 95%, si el flujo de expiración
forzada en el nivel 1, de no fumadores, es superior al del nivel 2, de fumadores pasivos.
Observemos en primer lugar que la variable FVC contiene los datos de todos los grupos y que la
variable Nivel fumador clasifica, con un nº entero de 1 a 6, los datos de cada grupo. Esta forma
de procesar la información es la habitual en el Análisis de la Varianza (ANOVA), técnica que
veremos más adelante. Como nuestro estudio afecta, en este caso, a los grupos de No fumador y
Fumador pasivo, tendremos que arbitrar un procedimiento para seleccionar esta información.
La estructura del intervalo de confianza que deberá determinar el alumno con ayuda de
Statgraphics se basa en dos muestras de poblaciones independientes, con distribución normal y
con varianzas semejantes (si las varianzas fuesen significativamente diferentes el modelo
probabilístico a emplear varía ligeramente). Si varianzas iguales, usamos:

X − Y − (µ x − µ y )
que se distribuye según tn1 +n2 −2
1 1
Sp +
n1 n2

2
(n1 − 1)S2x + (n2 − 1)S2y
donde S = p = var ianza muestral combinada
n1 + n2 − 2
estimador de la varianza común a X e Y
S2x y S2y = var ianzas muestrales de cada muestra

y, en el caso de varianzas distintas,

X − Y − (µ x − µ y )
que se distribuye según t ν
S 2
S2y
+
x
n1 n2
S2x y S2y = var ianzas muestrales de cada muestra
2
⎛ s2x s2y ⎞
⎜⎜ + ⎟⎟
ν = entero más próximo al valor ⎝ n1 n2 ⎠
2 2
⎛ s2x ⎞ ⎛ s2y ⎞
⎜ ⎟ ⎜⎜ ⎟⎟
⎝ n1 ⎠ + ⎝ n2 ⎠
n1 − 1 n2 − 1

De lo anterior, se obtendrían las estructuras respectivas de intervalos de confianzas bilaterales,


al nivel 1-α (y del modo habitual los unilaterales):

Dpto. Matemática Aplicada (Biomatemática). Facultad de Biología. U.C.M. 45


Estimaciones de parámetros por intervalos.

⎛ 1 1 1 1 ⎞
⎜⎜ x − y − tn1 +n2 −2 ,α /2sp + , x − y + tn1 +n2 −2 ,α / 2sp + ⎟
⎝ n1 n2 n1 n2 ⎟⎠

⎛ s2 s
2
s2 s ⎞
2
⎜ x − y − t ν , α / 2 x + y , x − y + t ν ,α / 2 x + y ⎟
⎜ n1 n2 n1 n2 ⎟
⎝ ⎠
Como paso previo, y al margen de que posteriormente se contrastará la igualdad de varianzas, el
alumno desarrollará en primer lugar la prueba de normalidad de las dos variables implicadas,
con ayuda del estadístico de Shapiro-Wilk, teniendo en cuenta que en la ventana de
configuración del análisis se completarán los campos (Datos y Selección) tal y como se muestra
a continuación para el grupo No fumador (Nivel fumador=1) y de forma similar para el de
Fumador pasivo (Nivel fumador=2):

Una vez contrastada la normalidad, se selecciona de la barra de menús la opción


Comparar…Dos Muestras…Muestras Independientes y se completan los datos tal y
como figuran en la siguiente ventana (seleccionando con el operador SELECT sólo los datos de
FVC de Nivel Fumador 1 y 2):

Dpto. Matemática Aplicada (Biomatemática). Facultad de Biología. U.C.M. 46


Estimaciones de parámetros por intervalos.

A continuación se activa la opción Comparación de Medias, en el panel de opciones de


Tablas y Gráficos:

Desde uno de los paneles o subventanas de resultados que aparecen en pantalla se accede, del
modo habitual, a la obtención del intervalo deseado (Observación: ver pag. 43, para seleccionar
el unilateral correspondiente) (Los resultados y respuestas a las cuestiones planteadas se
reflejarán en hoja anexa que será entregada en la sesión práctica).

Dpto. Matemática Aplicada (Biomatemática). Facultad de Biología. U.C.M. 47


Contrastes de hipótesis sobre parámetros usuales

Contrastes de hipótesis sobre parámetros usuales

• Proporciones respecto de la distribución binomial.

Tal y como actuamos en la anterior sección, de estimación por intervalos, empezaremos con el
desarrollo de contrastes de hipótesis que pueden afectar al parámetro p de una población de
Bernoulli. Los contrastes pueden ser bilaterales o unilaterales (de cola inferior o superior),
respectivamente:
⎧H0 : p = p0

⎩H1 : p ≠ p0
⎧H0 : p = p0 (p ≥ p0 )

⎩H1 : p < p0
⎧H0 : p = p0 (p ≤ p0 )

⎩H1 : p > p0

donde p0 es el valor de p contrastado. Los criterios de rechazo de la hipótesis nula basados en el


P-valor, al nivel de significación α, son para los contrastes anteriores, respectivamente :

Re chazo de H0 ⇔ P − valor = 2 min(p(Y ≥ y),p(Y ≤ y)) ≤ α


Re chazo de H0 ⇔ P − valor = p(Y ≤ y) ≤ α
Re chazo de H0 ⇔ P − valor = p(Y ≥ y) ≤ α

donde y = valor observado en la supuesta variable binomial B(n,p0 )


= nº de "éxitos" observados en los n ensayos

(los P-valores son calculados por Statgraphics usando la distribución binomial o su aproximación
asintótica a la distribución normal)

CASO PRÁCTICO RESUELTO que deberá reproducir el alumno.

En 1866 fue publicado el famoso trabajo de Mendel (Versuche über Plflanzenhybriden), con
traducción al inglés de 1901 (Experiments in Plant Hybridization, J. Royal Horticultural Soc.,
Vol. 26.,pp. 1–32) que puede ser obtenida de http://www.mendelweb.org/Mendel.html; en el que
se recogen distintos experimentos con plantas de guisante (Pisum sativum). Los datos obtenidos
por hibridación en uno de estos experimentos corresponden a 258 plantas, cuyas vainas
contuvieron en total 6022 semillas amarillas y 2001 semillas verdes. Asímismo, se muestran los
resultados en detalle de las 10 primeras plantas:
Color de la semilla
Planta Amarilla Verde
1 25 11
2 32 7
3 14 5
4 70 27
5 24 13
6 20 6
7 32 13
8 44 9
9 50 14
10 44 18

Dpto. Matemática Aplicada (Biomatemática). Facultad de Biología. U.C.M. 48


Contrastes de hipótesis sobre parámetros usuales

A partir de estos datos, Mendel postuló que el número de semillas amarillas y de semillas verdes
mantenía una proporción de 3:1, hecho deducible de su segunda ley. Contrastaremos dicho
postulado utilizando, en primer lugar, las 10 primeras plantas (355 semillas amarillas y 123
verdes) y posteriormente con la totalidad. Las hipótesis a contrastar son:

⎧H : p = 3
⎪⎪ 0 4

⎪H : p ≠ 3
⎪⎩ 1 4
donde p = proporción exacta de guisantes amarillos
"éxito" = guisante amarillo
Para que Statgraphics desarrolle, este contraste es preciso suministrarle la estimación de la
proporción aludida, concretamente
y 355
p̂ = = = 0.7427
n 478

Procedemos, entonces, tal y como hicimos en la página 37: se selecciona la opción de la barra de
menús DESCRIBIR…DATOS NUMERICOS (O DATOS CATEGÓRICOS)…PRUEBAS
DE HIPÓTESIS…, y se completan los campos Hipótesis Nula, Proporción de la
Muestra y Tamaño Muestral , con 0.75, 0.7427 y 478 , respectivamente; y en el último
panel se comprueba que la opción No Igual (bilateral) de la hipótesis alternativa está
seleccionada; obteniéndose el panel de resultados:

El P-valor obtenido 0.751324, alejado sustancialmente de α=0.05, no permite rechazar el


postulado de Mendel. Si utilizamos ahora la totalidad de plantas, obtendríamos:
y 6022
p̂ = = = 0.7506
n 8023

Dpto. Matemática Aplicada (Biomatemática). Facultad de Biología. U.C.M. 49


Contrastes de hipótesis sobre parámetros usuales

El P-valor = 0.91274, “reafirma” de nuevo el postulado de Mendel (de este espectacular P-valor,
podemos asegurar que la “naturaleza”, “predecible o impredecible”, se ha “portado bastante
bien” con Mendel).
Observación: en el panel gráfico siguiente se superponen las curvas de potencias para los
tamaños muestrales 478 (en azul o trazo fino) y 8023 (en rojo o trazo grueso), que conviene
estudiar previamente y con independencia de los resultados obtenidos en el experimento,
recordando que la potencia de un contraste evalúa la capacidad del procedimiento para detectar
la falsedad de la hipótesis nula, en nuestro caso, respecto de nivel de significación α (0.05 en
este caso) :
La potencia para p = p0 +δ , donde |δ| > 0, se define por
1 - β = p(rechazar H0 p = p0 +δ) =
= p(Y ≥ y α /2 p = p0 +δ) + p(Y ≤ y1− α /2 p = p0 +δ)
para Y variable binomial, correspondiente a n ensayos

De la gráfica se obtiene, por ejemplo, que la potencia para p=0.73 es prácticamente 1, si n=8023.
Sin embargo, la potencia para p=0.73 es aproximadamente 0.1788, si se considera n=478; es
decir, si p es 0.73 sólo en el 18% de los casos se detectaría, rechazando la hipótesis nula. Estos
últimos cálculos de potencia deben ser comprobados y valorados por el alumno, con ayuda
de la definición anterior.

Dpto. Matemática Aplicada (Biomatemática). Facultad de Biología. U.C.M. 50


Contrastes de hipótesis sobre parámetros usuales

۞ CASO PRÁCTICO Nº 9 A RESOLVER POR EL ALUMNO


En el trabajo de Mendel mencionado anteriormente, se hace referencia a un experimento en el
que de 253 plantas se obtuvieron 1850 semillas arrugadas y 5472 semillas lisas. Contraste la
hipótesis de que el número de semillas arrugadas y el número de semillas lisas mantienen una
proporción 1:3. (Los resultados y respuestas a las cuestiones planteadas se reflejarán en
hoja anexa que será entregada en la sesión práctica).

• Sobre el valor medio en una población normal N(µ,σ)


CASO PRÁCTICO RESUELTO que deberá reproducir el alumno.

La variable Estatura, del fichero de prácticas, contiene los datos, en cm, correspondientes a una
muestra de individuos adultos de un determinado entorno geográfico. Estas observaciones ha
sido recogidas con el fin de contrastar la conjetura de un investigador que afirma que se ha
producido un aumento significativo de la estatura media, respecto del valor establecido hace 25
años, concretamente 165.5 cm. Por ello, las hipótesis a contrastar serán:

⎧H0 : µ = 165.5

⎩H1 : µ > 165.5
donde µ designa el valor actual de la estatura media. Podemos observar, en primer lugar, que la
conjetura del investigador figura como hipótesis alternativa del contraste, ya que su aceptación
errónea viene determinada por el nivel de significación α :

α = p(rechazar H0 H0 es cierta) =
= p(aceptar H1 H0 es cierta) = p(aceptar H1 µ = 165.5)
y, en alguna medida, este nivel es fijado por el experimentador. Dado que se trata de un contraste
unilateral superior o de cola derecha, el criterio de rechazo de la hipótesis nula será:

X − 165.5
Re chazo de H0 ⇔ P − valor = p( ≥ t) ≤ α
S / 36
X − 165.5 x − 165.5
donde sigue el modelo t35 , t =
S / 36 s / 36
2
x y s valores observados de la media y varianza muestral

(en todo lo anterior, se supone que la variable X = estatura, sigue una distribución normal con
varianza desconocida. Esta aserción deberá ser contrastada por el alumno con ayuda del
estadístico de Shapiro-Wilk)
De la barra de menús seleccionamos la opción DESCRIBir… DATOS NUMERICOS…
ANALISIS DE UNA VARIABLE y completamos la ventana de configuración del análisis con
la variable Estatura:

Dpto. Matemática Aplicada (Biomatemática). Facultad de Biología. U.C.M. 51


Contrastes de hipótesis sobre parámetros usuales

Seleccionamos en el panel de opciones de Tablas y Gráficos Prueba de Hipótesis y


seguidamente en la subventana de resultados de la prueba de hipótesis pulsamos el botón
derecho del ratón, seleccionamos Opciones de Ventana y sobre el panel correspondiente se
completa el campo Media con 165.5 (el valor de la media hace 25 años) y se activa la opción
Mayor Que ( para considerar el contraste unilateral superior):

Finalmente, se obtiene el panel de resultados:

El P-valor obtenido, 0.000516, aboga significativamente por la conjetura planteada.


(Observación: los mismos resultados pueden ser obtenidos si suministramos a Statgraphics los
valores observados de la media y la desviación típica muestral, 170.339 y 8.61279,
respectivamente. Basta para ello, con seleccionar de la barra de menús Describir… Datos
Numerícos… Pruebas de Hipótesis…, completar convenientemente los campos con los
datos anteriores, etc…)

Dpto. Matemática Aplicada (Biomatemática). Facultad de Biología. U.C.M. 52


Contrastes de hipótesis sobre parámetros usuales

۞ CASO PRÁCTICO Nº 10 A RESOLVER POR EL ALUMNO


Un ensayo clínico pretende poner de manifiesto que una ingestión diaria de 30 mg de
simvastatina reduce de manera significativa la tasa en sangre de colesterol LDL (lipoproteína de
baja densidad), en pacientes afectados de hipercolesterolemia moderada. Se tomó un grupo de 25
pacientes a los que se les medió el nivel de LDL (en mg/dl) antes y después de 4 meses con el
tratamiento especificado. Los datos recogidos se encuentran en el fichero de prácticas, en las
variables LDLA y LDLD, tratándose por tanto de datos apareados. Contraste el objetivo del
ensayo clínico, utilizando la variable LDLD-LDLA, con un nivel de significación de 0.025. (Los
resultados y respuestas a las cuestiones planteadas se reflejarán en hoja anexa que será
entregada en la sesión práctica).

• Sobre proporciones en poblaciones de Bernoulli


independientes

CASO PRÁCTICO RESUELTO que deberá reproducir el alumno.

En el caso práctico nº 7 (ver página 44) se hizo mención a las variables Vacunados y No
Vacunados, del fichero de prácticas, cuyos datos corresponden a un ensayo clínico que trata de
comprobar la eficacia de una vacuna contra la gripe. Afecta a dos grupos o muestras
independientes (tratados con vacuna y tratados con placebo) de 400 individuos cada una.
Vamos a contrastar la eficacia de la vacuna, utilizando un nivel de significación de 0.025. Las
hipótesis a considerar son las siguientes:

⎧H0 : pT -pNT = 0
⎨ donde
⎩H1 : p T -pNT > 0
p T = proporción exacta de imnunes vacunados
pNT = proporción exacta de imnunes no vacunados

con el fin de establecer el criterio de rechazo de la hipótesis nula, utilizaremos el hecho que bajo
H0 :

ˆ −P
P ˆ
T NT
es asíntoticamente N(0,1)
ˆ )( 1 + 1 )
ˆ (1 − P
P
n1 n2
donde P̂T = proporción de éxitos en n1 ensayos (tratados)
ˆ = proporción de éxitos en n ensayos (no tratados)
PNT 2

ˆ + n P̂
n1P
P̂ = T 2 NT
= estimador combinado del parámetro
n1 + n2
El criterio de rechazo H0 a aplicar para un nivel de significación α será:

Re chazo de H0 ⇔ P − valor = p(Z ≥ z) ≤ α


ˆT − p
p ˆNT
donde z=
1 1
ˆ (1 − p)(
p ˆ + )
400 400
y Z designa a la distribución N(0,1)

Dpto. Matemática Aplicada (Biomatemática). Facultad de Biología. U.C.M. 53


Contrastes de hipótesis sobre parámetros usuales

Como ya hicimos anteriormente, de la barra de menús de Statgraphics se selecciona


COMPARAR… DOS MUESTRAS... HYPOTHESIS TESTS… ; posteriormente se
selecciona la opción Proporciones Binomiales se completan los campos solicitados y a
continuación se activa la opción de hipótesis alternativa Mayor Que:

Finalmente, se obtiene el siguiente panel de resultados:

Del P-valor obtenido y del nivel de significación adoptado, no queda confirmada la eficacia de la
vacuna. Como motivo de reflexión, analícese si el no rechazo de la hipótesis nula, y por tanto la
asunción de la ineficacia de la vacuna, puede ser debido a un falta de potencia.

Dpto. Matemática Aplicada (Biomatemática). Facultad de Biología. U.C.M. 54


Contrastes de hipótesis sobre parámetros usuales

۞ CASO PRÁCTICO Nº 11 A RESOLVER POR EL ALUMNO


Se quiere contrastar que un determinado fármaco origina como secuela cierta lentitud motriz,
secundaria a una pérdida de coordinación en los movimientos. Si esta hipótesis es aceptada o no
rechazada, el fármaco, que lleva tiempo en el mercado sin dar muestras de toxicidad alguna, será
retirado del mismo. Los datos de las variables VT y VNT corresponden a velocidad, en unidades
adecuadas, con la que han recorrido un laberinto 60 ratas tratadas con el fármaco y 60 tratadas
con un placebo.
Dado que las dos muestras son independientes, el contraste de hipótesis a desarrollar está basado
en los mismos supuestos planteados en el caso práctico nº 8 (página 45). Por tanto, en primer
lugar, se contrastará por el procedimiento habitual la normalidad de las dos variables implicadas
(si se rechaza la normalidad, se tiene como alternativa la prueba no paramétrica de Mann-
Whitney); seguidamente, se realizará una prueba de homocedasticidad; y finalmente, se
contrastará la toxicidad del fármaco. (Los resultados y respuestas a las cuestiones planteadas
se reflejarán en hoja anexa que será entregada en la sesión práctica)

(Observación: para realizar la prueba de homocedasticidad (igualdad de varianzas), se selecciona


también la opción Comparación de Desviaciones Estándar (ver figura, abajo), en el
panel de opciones de Tablas y Gráficos .Bien entendido, antes hay que seguir los pasos previos
de la opción de la barra de menús Comparar… Dos Muestras… Muestras
Independientes… ).

۞ CASO PRÁCTICO Nº 11 bis A RESOLVER POR EL ALUMNO

En las prácticas de Biología Celular, a fin de estudiar la relación entre la temperatura de cultivo y
la adherencia celular, se realizó el siguiente experimento: de una suspensión celular de bazo
obtenida mediante disgregación mecánica, tras determinar la viabilidad celular, se prepararon
3ml con una concentración de 2x106 céls/ml en RPMI. Dicha suspensión se añadió a una placa
Petri de plástico y se incubó 60 minutos a 4ºC o a 37º C para permitir la adherencia de las
células. Se realizó el recuento del número de células recuperado en cada condición (variable
temperatura) y se determinó el índice de células adherentes (variable adherencia) y no
adherentes.

Nº cél. _ Recuperadas
% _ Cél. _ NO _ adherentes = x100
Nº cél. _Iniciales
% Cél. adherentes = 100 - % Cél. NO adherentes

(Los resultados y respuestas a las cuestiones planteadas se reflejarán en hoja anexa que
será entregada en la sesión práctica)

Dpto. Matemática Aplicada (Biomatemática). Facultad de Biología. U.C.M. 55


Tablas de Contingencia

Contrastes sobre independencia y homogeneidad en variables


cualitativas o de clasificación. Tablas de contingencia.

• Sobre Independencia de dos factores de clasificación


poblacional.

CASO PRÁCTICO RESUELTO que deberá reproducir el alumno.

Como ya se mencionó en el caso práctico nº 5 (pág. 39), las variables del ficheros de datos:
Grupo O, Grupo A, Grupo B y Grupo AB; configuran una tabla de contingencia 5x4, relativa a
dos factores cualitativos de clasificación: sintomatología de una enfermedad (cinco niveles
excluyentes: S1, S2, S3, S4, S5) y el grupo sanguíneo (cuatro niveles); que corresponde a una
muestra de 2373 afectados. Vamos a tratar de contrastar si ambos factores de clasificación son
independientes, ya que si fuese el caso, significaría que no existe ninguna asociación entre el
grupo sanguíneo y la sintomatología a la que alude la enfermedad, o dicho de otro modo, la
proporción de individuos manifestando un síntoma determinado es la misma en todos y cada uno
de los grupos sanguíneos. Recordemos que si F1 y F2 son dos factores de clasificación
poblacional, de niveles A1, A2 ,…, Ar; y B1, B2, …, Bs, respectivamente; se dice que son
independientes si

p(Ai ∩ B j ) = p(Ai )p(B j ) o de manera equivalente p(Ai | B j ) = p(Ai )


c
o p(Ai |B j ) = p(Ai |B j ) para todo 1 ≤ i ≤ r, 1 ≤ j ≤ s,
c
donde B j designa el suceso contrario a B j

El contraste sobre independencia se puede formalizar de la forma siguiente

⎪⎧H0 : pij = pip j , para todo 1 ≤ i ≤ r, 1 ≤ j ≤ s



⎪⎩H1 : no es el caso
donde pij = p(A i ∩ B j ), pi = p(A i ), p j = p(B j )
Para su desarrollo utilizaremos una aproximación asintótica al modelo chi-cuadrado, similar a la
considerada en la página 27, en bondad de ajuste (que usaremos siguiendo las recomendaciones
de Cochran en “Some methods for strengthening the common tests”, Biometrics 10, 417-451,
1954 : En tablas de contingencia 2x2 se usa el test exacto de Fisher, si n<20; la aproximación y
la corrección por continuidad de Yates, si 20 ≤ n ≤ 40 y los cuatro valores esperados son al
menos 5; el test exacto de Fisher, si 20 ≤ n ≤ 40 y algún valor esperado es menor que 5; la
aproximación y la corrección por continuidad de Yates, si n>40. En tablas de contingencia rxs
con más de 1 grado de libertad, se utiliza la aproximación , si como máximo el 20% de las
celdillas tienen esperados menores que 5 y ninguno es menor que 1. En caso contrario, se
deberán agrupar celdillas o establecer la distribución exacta, método que no considera
Statgraphics. Una exposición más o menos detallada sobre estos temas puede ser encontrada en
nuestra Aula Virtual de Bioestadística: http://e-stadistica.bio.ucm.es/mod_tablas/tablas1.html):

r s ˆˆ )2
(X ij − nPP r s ˆ )2
(Oij − E
Q = ∑∑ ∑ ∑ Eˆ ij ,
i j
= con distribución
i=1 j =1
ˆˆ
nPP i=1 j =1
i ij

aproximada χ2(r −1)(s −1) , donde n es el tamaño muestral,

Xij = nº de individuos con A i y B j en la muestra

Dpto. Matemática Aplicada (Biomatemática). Facultad de Biología. U.C.M. 56


Tablas de Contingencia

Para un nivel de significación α, se considera el siguiente criterio:


Re chazo de H0 ⇔ P − valor = p(χ2(r −1)(s −1) ≥ q) ≤ α
r s ˆip
(x ij − np ˆ j )2
donde q= ∑∑ ˆip
np ˆj
i=1 j =1

Para que Statgraphics realice los cálculos anteriores, seleccionamos de la barra de menús
Describir… Datos Categóricos… Tablas de Contingencia… , y completamos la
ventana de configuración del análisis con las variables Grupo O, Grupo A, Grupo B y Grupo
AB:

y a continuación sobre el panel de opciones de Tablas y Gráficos, se comprueba que la opción


Tablas de Frecuencias y Pruebas de Independencia están seleccionadas:

Finalmente, utilizando el botón derecho del ratón sobre la subventana Tabla de Frecuencias se
seleccionan todas las opciones que se presentan:

Dpto. Matemática Aplicada (Biomatemática). Facultad de Biología. U.C.M. 57


Tablas de Contingencia

Los resultados se muestran parcialmente a continuación:

Al obtener un valor tan extremo del estadístico, q=44.43 , al que le corresponde un P-valor de
0.0000 (en realidad 0.000005), y por tanto, altamente significativo, nos vemos obligados a
rechazar la hipótesis de independencia.
Ahora, inspeccionando exclusivamente el panel Frequency table, intentaremos localizar en qué
celdillas de la tabla que figura en la página siguiente se detectan datos dispares respecto de la
independencia. Si nos detenemos, por ejemplo, en la celdilla de la primera fila y última columna,
que corresponde a los individuos con síntoma S1 y grupo sanguíneo AB, se observan 226
individuos de la muestra, cuando se esperaba observar por estimación 186.46, bajo la hipótesis
de independencia. La diferencia o residuo entre estas dos cantidades, ajustado, corregido o
estandarizado por su error estándar (ver, por ejemplo, The Analysis of Contingency Tables, B.S.
Everitt, Chapman and Hall ed. 1977) , es decir:

ˆˆ
Xij − nPP
i j
eij = , con distribución asintótica N(0,1)
ˆˆ (1 − P)(
nPP ˆ 1−P
ˆ)
i j i j

aporta un valor e14 = 5.1, muy significativo.


Lo mismo ocurre con la celdilla de la segunda fila y última columna, que afecta al síntoma S2 y
grupo sanguíneo AB, cuyo residuo ajustado o corregido es e24 = -3.88; así como en algunas
más, dejadas a alumno para su detección (ver pág. siguiente).
De todo lo anterior, podemos señalar que la dependencia o asociación está o parece estar, al
menos, entre los que presentan el grupo sanguíneo AB y los síntomas S1 o S2, es decir, los
individuos que presentan el síntoma S1 o S2 están en mayor o menor proporción entre los
que tiene el grupo sanguíneo AB (comentario que debe ser tomado con cierta prudencia o
incertidumbre y que convendría precisar).

Dpto. Matemática Aplicada (Biomatemática). Facultad de Biología. U.C.M. 58


Tablas de Contingencia

Tabla de Frecuencias

Grupo O Grupo A Grupo B Grupo AB Total por Fila


Fila_1 531 450 293 226 1500
22.38% 18.96% 12.35% 9.52% 63.21%
35.40% 30.00% 19.53% 15.07%
62.91% 61.31% 58.60% 76.61%
533.50 463.97 316.06 186.47
-2.50 -13.97 -23.06 39.53
0.01 0.42 1.68 8.38
-0.22 -1.29 -2.41 5.10
Fila_2 174 150 133 36 493
7.33% 6.32% 5.60% 1.52% 20.78%
35.29% 30.43% 26.98% 7.30%
20.62% 20.44% 26.60% 12.20%
175.34 152.49 103.88 61.29
-1.34 -2.49 29.12 -25.29
0.01 0.04 8.16 10.43
-0.14 -0.27 3.61 -3.88
Fila_3 42 26 26 8 102
1.77% 1.10% 1.10% 0.34% 4.30%
41.18% 25.49% 25.49% 7.84%
4.98% 3.54% 5.20% 2.71%
36.28 31.55 21.49 12.68
5.72 -5.55 4.51 -4.68
0.90 0.98 0.95 1.73
1.21 -1.22 1.12 -1.44
Fila_4 47 49 22 10 128
1.98% 2.06% 0.93% 0.42% 5.39%
36.72% 38.28% 17.19% 7.81%
5.57% 6.68% 4.40% 3.39%
45.53 39.59 26.97 15.91
1.47 9.41 -4.97 -5.91
0.05 2.24 0.92 2.20
0.28 1.85 -1.11 -1.63
Fila_5 50 59 26 15 150
2.11% 2.49% 1.10% 0.63% 6.32%
33.33% 39.33% 17.33% 10.00%
5.92% 8.04% 5.20% 5.08%
53.35 46.40 31.61 18.65
-3.35 12.60 -5.61 -3.65
0.21 3.42 0.99 0.71
-0.59 2.30 -1.16 -0.93
Total por Columna 844 734 500 295 2373
35.57% 30.93% 21.07% 12.43% 100.00%

Contenido de las celdas:


Frecuencia Observada
Porcentaje de la Tabla
Porcentaje de la Fila
Porcentaje de la Columna
Frecuencia Esperada
Frecuencia Observada - Esperada
Contribución a la Chi-Cuadrado
Residuos Ajustados

۞ CASO PRÁCTICO Nº 12 A RESOLVER POR EL ALUMNO


Se consideran el sexo y el mes de nacimiento como dos factores de clasificación de los
individuos de una determinada región geográfica. Con el fin de contrastar la posible
independencia entre estos factores, se tomó al azar una muestra de tamaño 8020, entre los
nacidos durante un año. La tabla de contingencia 2x12 se configura con las variables del fichero
de prácticas: En, Fe, Ma, Ab, May, Ju, Jul, Ag, Se, Oc, No, Di ; y de cada una, la primera fila

Dpto. Matemática Aplicada (Biomatemática). Facultad de Biología. U.C.M. 59


Tablas de Contingencia

de datos corresponde a los hombres y la segunda a las mujeres. Además de contrastar la citada
independencia, considere la posibilidad de contrastar si la proporción de hombres difiere o no
significativamente de la proporción de mujeres, considerando la totalidad de datos del año. (Los
resultados y respuestas a las cuestiones planteadas se reflejarán en hoja anexa que será
entregada en la sesión práctica)

• Sobre homogeneidad de proporciones en varias


poblaciones independientes, respecto de un factor de
clasificación.
CASO PRÁCTICO RESUELTO que deberá reproducir el alumno.

En el caso estudiado en la página 36, se hizo alusión a una tabla de contingencia 2x6 (variables:
Placebo, Fármaco 1, Fármaco 2, … , Fármaco 5) que analiza el efecto terapéutico de 5 fármacos
contra la depresión. La tabla contiene los resultados de pacientes deprimidos que corresponden a
seis grupos seleccionados al azar de tamaño 30, a los que se les aplica uno de los cinco fármacos
o un placebo, observándose si “su estado ha mejorado=éxito” o si “su estado es el mismo o ha
empeorado=fracaso” . Es obvio que nos encontramos ante seis muestras de poblaciones
independientes de Bernoulli (éxito, fracaso) y nos preguntamos si los datos obtenidos son
consistentes con la hipótesis de que el parámetro p (probabilidad de éxito), en cada una de las
poblaciones, es esencialmente el mismo; lo cual conduciría a asumir que los fármacos
considerados no tienen efecto terapéutico alguno. En general, las hipótesis enfrentadas en estas
pruebas de homogeneidad son:

⎪⎧H0 : pij = pij' pi , para todo i=1,..,r ; j,j'=1,...s



⎪⎩H1 : no es el caso
donde pij = p(Ai | B j ) = proporción de Ai en la población B j

(en el ejemplo que nos ocupa, r=2 (éxito, fracaso); s=6)


La metodología a emplear en el desarrollo de este contraste se basa asímismo en una
aproximación asintótica al modelo chi-cuadrado:

r s ˆ )2
(X ij − n jP r s ˆ )2
(Oij − E
Q= ∑∑ ˆ
njP
i
= ∑∑
ˆ
E
ij
, con distribución
i=1 j =1 i i=1 j =1 ij

aproximada χ2(r −1)(s −1) , donde

Xij = nº de individuos con A i en la muestra de tamaño n j de la población B j

Para un nivel de significación α, se considera el siguiente criterio:

Re chazo de H0 ⇔ P − valor = p(χ2(r −1)(s −1) ≥ q) ≤ α


r s ˆi )2
(x ij − n jp
donde q= ∑∑ ˆi
n jp
i=1 j =1

Ya que los cálculos son totalmente equivalentes a los de la prueba sobre independencia de dos
factores de clasificación, de nuevo seleccionamos de la barra de menús Describir… Datos
Categóricos… Tablas de Contingencia… , y completamos la ventana de configuración
del análisis con las variables Placebo, Fármaco 1, Fármaco 2, … , Fármaco 5:

Dpto. Matemática Aplicada (Biomatemática). Facultad de Biología. U.C.M. 60


Tablas de Contingencia

Seleccionando los mismas opciones de los siguientes paneles, tal y como hicimos en la página
57, se obtienen los siguientes paneles de resultados, significativos al nivel del 5%:

Dada la significación de los resultados, en este tipo de experimento, placebo versus


tratamientos, es de especial interés contrastar, mediante una tabla 2x2, la independencia entre el
placebo y cada uno de los fármacos. Puesto que se trata de realizar 5 contrastes, que recurren a
valores de variables Chi-cuadrado con un grado de libertad no independientes, con el fin de

Dpto. Matemática Aplicada (Biomatemática). Facultad de Biología. U.C.M. 61


Tablas de Contingencia

controlar el error de tipo I, a efectos de no declarar más diferencias que las que merecen los
datos, utilizaremos un nivel de significación de α/(c-1) para cada contraste 2x2, para que el error
de tipo I global (lo que se denomina la tasa de error experimental o experimentalmente
prudente) sea a lo sumo α (desigualdad de Bonferroni): en nuestro caso, con c=6 y α=0.05; se
tomará 0.05/5=0.01 como nivel de significación para cada uno de de los contrastes individuales,
cuyos resultados se exponen a continuación, una vez que seleccionemos la opción de la variable
Chi-cuadrado con la corrección por continuidad de Yates, siguiendo las recomendaciones de
Cochran (ver página 56 de este guión). Para ello, se pulsa el botón derecho de ratón sobre la
subventana Pruebas de independencia y selecciona de las opciones de ventana correspondiente:

Recordemos que el estadístico de Pearson con la corrección de Yates es en este caso

2 2
ˆ − 0.5)2
( Xij − njP 2 2
ˆ − 0.5)2
( Oij − E
i ij
Q= ∑∑ ˆ
n jP
= ∑∑ ˆ
E
i=1 j =1 i i=1 j =1 ij

Los resultados se muestran a continuación en cinco paneles:

Dpto. Matemática Aplicada (Biomatemática). Facultad de Biología. U.C.M. 62


Tablas de Contingencia

Dpto. Matemática Aplicada (Biomatemática). Facultad de Biología. U.C.M. 63


Tablas de Contingencia

Estos resultados declaran diferencias claras entre el placebo y el Fármaco 2, y dudosas entre el
placebo y el Fármaco 5, al nivel considerado.

Dpto. Matemática Aplicada (Biomatemática). Facultad de Biología. U.C.M. 64


Tablas de Contingencia

۞ CASO PRÁCTICO Nº 13 A RESOLVER POR EL ALUMNO


En “A randomized, double-blinded, placebo-controlled trial of quetiapine of bipolar I or II
depression, Amer. J. of Psychiatry, 2005, 162, 1351-1360”, un trabajo sobre el efecto de la
quetiapina , antipsicótico atípico, en pacientes afectados de trastorno bipolar (Depresión Bipolar
tipos I o II) , se valora su eficacia utilizando tres grupos independientes de pacientes de tamaños
169, 172 y 170; a los cuales se le aplica un placebo, 200 mg/dia y 600 mg/día de quetiapina,
respectivamente, durante 8 semanas. Al acabar el tratamiento y considerando una serie de
protocolos, los afectados se clasificaron en E: “experimentan una notable remisión de la
enfermedad” y F: “no experimentan ninguna mejoría en la enfermedad”. Una ilustración de estos
resultados se encuentran en las variables Placebo_quetiapina, Quetiapina_300_mg, y
Quetiapina_600_mg, del ficheros de datos de prácticas (E en 1ª fila y F en 2ª fila). (Los
resultados y respuestas a las cuestiones planteadas se reflejarán en hoja anexa que será
entregada en la sesión práctica)

Dpto. Matemática Aplicada (Biomatemática). Facultad de Biología. U.C.M. 65


Introducción al Análisis de la Varianza (ANOVA)

Breve Introducción a las técnicas del Análisis de la Varianza


(ANOVA)

• Modelo de una vía o factor a efectos fijos.


Recordemos que este modelo, el más básico y simple de los que contempla el ANOVA, permite
en condiciones de normalidad y homocedasticidad de k variables Y1, Y2, …Yk independientes,
identificadas como niveles o tratamientos del factor (Yi ∼ N(µi , σ); i=1,2,…k), desarrollar el
siguiente contraste

⎧H0 : µ1 = µ2 = ... = µk

⎩H1 : no es el caso (al menos dos difieren)

El no rechazo de H0, para un nivel de significación α, conduce a declarar efecto nulo de los
tratamientos o que Y, la variable respuesta, se comporta de manera similar en las k situaciones
experimentales o tratamientos considerados para el factor. Para el citado nivel de significación,
el criterio a emplear es:

Rechazo de H0 ⇔ P − valor = p(F(k −1,N−k) ≥ f) ≤ α


msa
donde f = ,
mse
msa = suma de cuadrados medios de los tratamientos
mse = suma de cuadrados medios del error
F(k −1,N−k) es la distribución F de Fisher con (k - 1,N - k) grados de libertad

respecto de los datos obtenidos de las k poblaciones:

Y1 Y2 ... Yk
y11 y21 ... y k1
y12 y22 ... yk 2
... ... ... ...
y1n1 y2n2 yknk

(N = n1 + n2 + ... + nk )

CASO PRÁCTICO RESUELTO que deberá reproducir el alumno.

Retomamos el estudio presentado en el caso práctico nº 8 de la página 41, en el que se investiga


el efecto que sobre la función respiratoria de los no fumadores puede tener el hecho de convivir
con individuos fumadores. Las variables FVC (capacidad vital forzada, en litros de aire) y Nivel
fumador (No fumador (valor 1); Fumador pasivo (valor 2); Fumador no inhalante (valor 3);
Fuma 1-10 cigarrillos (valor 4); Fuma 11-39 cigarrillos (valor 5); Fuma más de 40 cigarrillos
(valor 6), del fichero de prácticas, contienen datos simulados que afectan a 200 mujeres por
grupo. El primer paso a desarrollar es un análisis de la varianza, que contrastará si existe
diferencias significativas en FVC en los 6 grupos, tratamientos o niveles considerados y, en el
caso de que resulte significativo, procederemos, como segundo paso, a localizar los niveles que
originan tal significación, mediante comparaciones múltiples por pares.

Dpto. Matemática Aplicada (Biomatemática). Facultad de Biología. U.C.M. 66


Introducción al Análisis de la Varianza (ANOVA)

Como paso previo al ANOVA, se deberá contrastar la normalidad de la variable respuesta ,


FVC, en cada uno de los 6 niveles del factor considerado, y con ayuda del estadístico de
Shapiro-Wilk, tal y como se plantea en la página 46 (NO OLVIDE DE HACERLO).
Para desarrollar el análisis de la varianza, seleccionamos de la barra de menús Comparar…
Analisis de Varianza… ANOVA Simple… y completamos la ventana de configuración del
análisis con las variables:

y a continuación sobre el panel de opciones de Tablas y Gráficos se activarán las siguientes:

Se obtienen los siguientes paneles de resultados, con muy alta significación (P-valor
prácticamente 0), pudiéndose observar que la estimación puntual de σ2 es mse=0.619728,
mientras que la suma de cuadrados medios de los tratamientos es msa=39.583, más de 60 (63.87
exactamente) veces mse; lo cual señalaría que se está sobreestimando la varianza común a los
tratamientos o niveles, lo cual ocurre cuando H0 es falsa; además, en el panel Verificación de
Varianza se ha utilizado, para contrastar la requerida homocedasticidad, el estadístico de Bartlett
y no el de Levene, que es el que aparece por defecto (véase el estudio comparativo : A
comparison of type I error and power of Bartlett’s test, Levene’s test and Cochran’s test under
violation of assumptions , de Vorapongsathorn T. et alt, en Songklanakarin J. Sci. Technol.,
2004, 26(4) pág 537-547) :

Dpto. Matemática Aplicada (Biomatemática). Facultad de Biología. U.C.M. 67


Introducción al Análisis de la Varianza (ANOVA)

Se trata ahora de establecer qué niveles son el origen de la significación; para lo cual
recurriremos a realizar comparaciones o contrastes por pares de todos los niveles, utilizando la
técnica de Fisher LSD, y que se basa en la utilización para cada par de valores medios µi y µj de:

Yi. − Yj. − (µi − µ j )


con distribución tN-k
1 1
MSE( + )
ni nj

con el objeto de desarrollar los k(k-1)/2 contrastes, donde k es el número de niveles considerados
en la variable respuesta:

⎧⎪H0 : µi = µ j

⎪⎩H1 : µi ≠ µ j
yi. − y j.
con rechazo de H0 ⇔ t ≥ tN-k,α / 2 donde t =
1 1
mse( + )
ni nj

Es preciso observar en estos momentos que, a pesar de los numerosos procedimientos a


posteriori de que disponemos, simultáneos o no, de comparaciones múltiples, generalmente por
pares de medias, (LSD (Fisher 1935), TSD (Tukey 1953), SNK (Student-Newman-Keuls),
MRT (Duncan 1955), SSD (Scheffé 1953, etc…), no deja de ser sorprendente, y a pesar de las
críticas, las cualidades en cuanto a potencia y error de tipo I del procedimiento de Fisher LSD
(Least Significant Difference), puestas de manifiesto sobre todo empleando simulaciones por el
método de Monte Carlo (ver, por ejemplo, el trabajo: An evaluation of ten pairwise multiple
comparison…, JASA, 1973, 68, 66-74); pero siempre que se emplee tal y como él sugirió: sólo si
el F-test resulta significativo, al nivel del 0.05; y, si no es el caso, no se continúa para eliminar
la posibilidad de cometer errores de tipo I.

Dpto. Matemática Aplicada (Biomatemática). Facultad de Biología. U.C.M. 68


Introducción al Análisis de la Varianza (ANOVA)

Para ello, pulsamos el botón de configuración de tablas y gráficos, y se selecciona la opción


Pruebas de Múltiple Rangos, obteniéndose los siguientes resultados, con α=0.05 para cada
comparación:

Los Límites que aparecen en la cuarta columna de la segunda columna del panel anterior hacen
referencia a los valores:

1 1
tN-k,α / 2 mse( + )
ni nj

que se comparan con el valor absoluto de la diferencias de las dos medias muestrales de los
niveles contrastados ( la significación, en su caso, se marca con un asterisco).

Dpto. Matemática Aplicada (Biomatemática). Facultad de Biología. U.C.M. 69


Introducción al Análisis de la Varianza (ANOVA)

Obsérvese en el gráfico de intervalos de confianza sobre las respuestas medias (Gráfico de


Medias) la formación de grupos con respuesta similar :

De los conjuntos de paneles anteriores, se podrían extraer las siguientes conclusiones: se


distinguen claramente tres grupos, que integran cada uno respuestas medias similares en FVC:
Grupo I (con sólo el nivel 1, no fumadores); Grupo II (con niveles 2 ,3 y 4; de fumador
pasivo, fumador no inhalante y fuma 1-10 cigarrillos, respectivamente); y Grupo III (con
niveles 5 y 6; de los que fuman 11-39 y aquellos que fuman más de 40 cigarrillos,
respectivamente); aunque, a pesar de que los resultados de las comparaciones por pares no lo
señalan, hemos optado por identificar los niveles 5 y 6, ya que el contraste 5-6 no soporta la
significación de 0.025 (compruébelo) y, ante la duda, nos preservamos de poder cometer más
errores de tipo I de los razonables.

۞ CASO PRÁCTICO Nº 14 A RESOLVER POR EL ALUMNO

En la literatura científica es bien conocida la capacidad de la bacteria Ralstonia eutropha para


sintetizar polímeros naturales biodegradables, como los polihidroxibutiratos (PHB), que
finalmente se pueden utilizar en la fabricación de plásticos especiales. Tomando como
referencia la cepa ATCC 17699 de dicha bacteria, se generan 3 nuevas cepas, cada una de ellas
con una mutación diferente sobre el gen phaP, ya que se plantea como conjetura que provocan
una alteración en la producción de PHB. Los datos , en mg/ml de cultivo, que figuran en las

Dpto. Matemática Aplicada (Biomatemática). Facultad de Biología. U.C.M. 70


Introducción al Análisis de la Varianza (ANOVA)

variables PHB y Cepa Ralstonia eutropha, corresponden a réplicas de cultivos apropiados en


fructosa de las 4 cepas mencionadas, en la que la originaria, sin mutación alguna, es identificada
con el valor 1 de la variable Cepa Ralstonia eutropha, y los valores de 2 a 4 se asocian,
respectivamente, a las nuevas cepas. Se trata, por tanto, de contrastar tal conjetura utilizando la
técnica del Análisis de la Varianza, al nivel de 0.05 y, si procede, las comparaciones múltiples
con el método LSD de Fisher, al nivel 0.025 . (Los resultados y respuestas a las cuestiones
planteadas se reflejarán en hoja anexa que será entregada en la sesión práctica)

• Modelo de una vía o factor a efectos aleatorios (Análisis


de Componentes de la Varianza).
Otro de los modelos básicos del análisis de la varianza es el llamado de efectos aleatorios, el
más sencillo de una vía o factor, o también denominado Análisis de Componentes de la
Varianza, con una extensa aplicabilidad en el tratamiento de datos, respecto de familias,
camadas, etc..; así como en aquellos procedimientos cuya finalidad última es establecer la mejor
estrategia para determinar con precisión la respuesta media de una magnitud poblacional de
interés, como la temperatura corporal en una especie, concentración de calcio en hojas de una
variedad vegetal, etc...
Vamos a exponer tal modelo, basándonos en un supuesto diseño experimental en el ámbito de la
medicina:

CASO PRÁCTICO RESUELTO que deberá reproducir el alumno.

Es un hecho contrastado que la hipertensión está asociada o es una de las posibles causas de una
fracción de eyección insuficiente (FEV = proporción de sangre que el corazón bombea del
ventrículo izquierdo en cada latido). A esto se añade que en el 90% aproximadamente de los
casos de hipertensión, existe una relevante influencia o carga hereditaria.
En base a lo anterior, y para ilustrar esta técnica de análisis de la varianza de efectos aleatorios o
análisis de componentes de varianza, supongamos que se desea estimar el grado de semejanza
en los miembros familiares (en los miembros de la misma familia), respecto de la fracción
de eyección; o poner de manifiesto que este grado de semejanza es comparable al que existe
entre los individuos de diferentes familias; en aquéllas con antecedentes en hipertensión. Para
ello, se seleccionan 12 familias, donde algún miembro tiene antecedentes por presión arterial
diastólica alta (que se excluye del estudio), de las cuales se seleccionan al azar 4 miembros
adultos con grado de parentesco próximo. Los datos correspondientes se encuentran en las
variables FEV y familia, del fichero de datos de prácticas.
Bajo este modelo, cada observación pude expresarse como

yij = µi + eij

donde i hace referencia a la familia y j al j-ésimo individuo seleccionado de esta familia; µi


identifica al valor medio (desconocido) de FEV correspondiente a la i-ésima familia (hemos de
suponer que este valor medio familiar es una “idealización” de lo que resultaría al considerar que
cada familia consta de una infinidad de miembros); eij designa la desviación aleatoria del j-esimo
miembro, respecto de la media de su familia. La representación anterior puede escribirse, a nivel
poblacional, como

Yij = µ+Ai+ Eij

donde µ es el valor medio de FEV en la población de familias, Ai=µi -µ es el efecto aleatorio


de la i-ésima familia, componente por tanto aleatoria, cuya varianza:

σ2A es la componente añadida de la varianza total, es decir,


σ2Y = σ2A + σ2e

Dpto. Matemática Aplicada (Biomatemática). Facultad de Biología. U.C.M. 71


Introducción al Análisis de la Varianza (ANOVA)

Se supone que Ai y Eij son independientes, que los Ai se distribuyen de modo similar, así como
que los Eij se distribuyen igual, pero estos errores o desviaciones y por tanto las observaciones Yij
no son independientes: la dependencia de este modelo de efectos aleatorios se puede poner de
manifiesto mediante el llamado coeficiente de correlación intraclase (ICC), muy usado en
análisis de la fiabilidad y de la concordancia:

E[(Yij − µ)(Yij' − µ)] σ2A


ICC = = 2
σ2Y σ A + σ2e

es decir, el ICC no es otra cosa que el coeficiente de correlación entre dos observaciones de la
misma familia.
El anova de efectos aleatorios formula el siguiente contraste:

⎧⎪H0 : σ2A = 0
⎨ 2
⎪⎩H1 : σ A > 0

El no rechazo de la hipótesis nula, asumiría que no hay componente añadida de la varianza lo


que conduciría a interpretar, en este ejemplo, que la FEV, en media, es similar a nivel de todas
las familias de la población. Sin embargo, un valor significativo de la distribución F, en este
anova (con cálculos idénticos al modelo de efectos fijos pero con interpretación distinta),
señalaría que los miembros de cada familia tienden a ser más semejantes o parecidos,
respecto de la FEV, que los individuos de las diferentes familias.
Para que Statgraphics realice los cálculos pertinentes, actuamos de modo idéntico al modelo de
efectos fijos, seleccionando de la barra de menús Comparar… Analisis de Varianza…
ANOVA Simple… y completamos la ventana de configuración del análisis con las variables:

y del panel de resultados siguiente se observa una alta significación, lo que conduce considerar
el rechazo de la hipótesis nula del ANOVA, extrayendo entonces la interpretación comentada
anteriormente:

Dpto. Matemática Aplicada (Biomatemática). Facultad de Biología. U.C.M. 72


Introducción al Análisis de la Varianza (ANOVA)

(Observemos que la variabilidad “Entre grupos” se refiere a la detectada entre las familias,
mientras que la “Intra grupos” afecta a los miembros de cada familia.).
Si deseamos una estimación puntual del ICC (coeficiente de correlación intraclase), se selecciona
de la barra de menús Comparar… Analisis de Varianza… Análisis de Componentes
de Varianza… y completamos la ventana de configuración del análisis con las variables:

obteniéndose, tal y como se observa a continuación, la estimación puntual del ICC en el valor
0.7403 (como era de esperar, las sumas de cuadrados de ambos paneles de resultados son
coincidentes) (Un desarrollo detallado del modelo de efectos aleatorios puede encontrarse, por
ejemplo, en el capítulo 7 de “The Analysis of Variance“, Scheffé H., John Wiley ed. 1959):

Dpto. Matemática Aplicada (Biomatemática). Facultad de Biología. U.C.M. 73


Introducción al Análisis de la Varianza (ANOVA)

۞ CASO PRÁCTICO Nº 15 A RESOLVER POR EL ALUMNO


Un grupo de investigadores en fisiología vegetal desea establecer una estrategia para determinar
el contenido medio en calcio de las hojas de la especie Brassica rapa, de la forma más precisa.
Con el fin de controlar la variabilidad intraindividual deciden tomar varias determinaciones en
distintas zonas de cada hoja y compararla con la variabilidad interindividual (entre hojas). Por
tanto, se están considerando dos componentes de variación o variabilidad y de su comparación
surgirá el modo de actuación más adecuado.
Deciden emplear el siguiente modelo de anova de efectos aleatorios:

Yij = µ+Ai+ Eij , i=1,…,k ; j=1,…,n


donde el índice i alude a la hoja (k hojas en total) y j a la determinación en la hoja (n
determinaciones o medidas en cada hoja). Para estimar el parámetro µ , su objetivo final,
recurren a la media muestral de todas las observaciones:

k
Yi. k n Yij n Yij
Y.. = ∑
i =1 k
= ∑ ∑ nk
i =1 j =1
, donde Yi. = ∑
j =1 n

La varianza y por tanto el error estándar asociado a este estimador es una medida de su precisión
a la hora de estimar el parámetro aludido, y de ello podremos observar en qué medida dicho error
estándar depende de las determinaciones en cada hoja y en qué medida depende de la distintas
hojas. Con ayuda de lo expuesto en las páginas 71 y 72, el alumno debe ser capaz de calcular la
varianza de la media muestral global , en función de la componentes de la varianza presentes en
este modelo. Una vez establecido este valor, deberá realizar una estimación de esta varianza con
ayuda de lo observado en 10 hojas y en 4 determinaciones por hoja; información que
corresponde con los datos de las variables factorhoja y Con_calcio, del fichero de prácticas.
Con esta estimación del error, se verá el modo más adecuado para estimar el parámetro µ (Los
resultados y respuestas a las cuestiones planteadas se reflejarán en hoja anexa que será
entregada en la sesión práctica)

(El siguiente trabajo hace referencia a este tipo de problemas: The assumption underlying the
analysis of variance, C. Eisenhart ; Biometrics, 3, nº 1, 1-21, 1947)

Dpto. Matemática Aplicada (Biomatemática). Facultad de Biología. U.C.M. 74


Introducción al Análisis de la Regresión

Breve Introducción al análisis de la regresión (lineal simple)

Recordemos que el análisis de la regresión lineal simple se enmarca dentro de los llamados
modelos predictivos, y permite dado un valor de una variable x, no aleatoria o controlada,
denominada variable predictora, regresora o independiente, realizar una estimación, en media,
del valor de una variable aleatoria, Yx, denominada variable respuesta o dependiente, según el
supuesto modelo poblacional siguiente, que habitualmente asume, además, homocedasticidad,
normalidad e independencia:

E(Yx ) = α + β x donde α + β x es denominada

recta de regresión poblacional

Yx = respuesta de Y, para el valor x (condicionada al valor x)

(a veces se señala con Yi la respuesta de Y, para el valor x i de x)

La recta de regresión estimada

ˆ =ˆ
Y α +ˆ
βx
se obtiene minimizando la suma de cuadrados de los residuos o residuales, que correspondería
a los n pares de observaciones (x1,Y1); (x2, Y2); …; (xn,Yn) :
n n n

SSE = ∑ ˆ2 =
Ei ∑ α −ˆ
(Yi − ˆ βxi ) =
2
∑ (Y i
ˆ )2
−Yi
i =1 i =1 i =1

y se comprueba que
n

∑ (x i
− x)(Yi − Y)
Sy
α = Y −ˆ
ˆ βx , ˆ
β= i =1
n
=R
Sx
∑ (x
i =1
i
− x)2

donde R designa al coeficiente de correlación múltiple


El cuadrado del coeficiente de correlación múltiple, llamado coeficiente de determinación
múltiple, mide, en porcentaje o proporción, la variabilidad explicada por la recta de regresión, y
se puede expresar con ayuda de las sumas de cuadrados:

2 SST − SSE SSR


R = = , donde
SST SST
n n n

SST = SSR + SSE = ∑ (Yi − Y) =


2
∑ ˆ − Y)2 +
(Yi ∑ (Y i
ˆ )2
−Yi
i =1 i =1 i =1

CASO PRÁCTICO RESUELTO que deberá reproducir el alumno.

Tammes en un trabajo titulado “On origin of number and arrangement of the places of exit on the
surface grains”, Diss. Groningen , 1930, puso de manifiesto la relación entre el grosor del grano
de polen y el número de orificios en su circulo ecuatorial, correspondiente a la especie Fuchsia
globosa. Para cada valor entre 0 y 4 de la variable predictora x = número de orificios en el
círculo ecuatorial, se obtuvieron 10 observaciones de la variable respuesta Y = diámetro del
grano de polen en micras. Los pares de datos obtenidos y redondeados a un múltiplo de 5 micras,
respecto del diámetro, se encuentran en las variables diámetro_espora y n_orificio_espora, del
fichero de prácticas.
Para determinar, en base a los pares de datos, la recta de regresión estimada, utilizamos de la
barra de menús la opción Relacionar … Un Factor… Regresión Simple … y se completa
la ventana del análisis:

Dpto. Matemática Aplicada (Biomatemática). Facultad de Biología. U.C.M. 75


Introducción al Análisis de la Regresión

En el siguiente panel se comprueba que el modelo lineal está seleccionado:

Finalmente, en el panel de opciones de Tablas y Gráficos se activan las siguientes

Los resultados se muestran a continuación:

Dpto. Matemática Aplicada (Biomatemática). Facultad de Biología. U.C.M. 76


Introducción al Análisis de la Regresión

Por tanto, la recta de regresión estimada será:


ˆ α +ˆ
y =ˆ β x = 11.4 + 10.9x
(obsérvese, por ejemplo, que la pendiente estimada con el valor 10.9, señala que por cada
orificio, el diámetro aumenta en media 10.9 micras. Además, si sustituimos x por el valor 1 en la
recta, obtenemos 22.3, lo cual se interpreta que las esporas con exactamente un orificio tiene un
diámetro medio de 22.3 micras. También, en este caso, el coeficiente independiente estimado
con el valor 11.4, corresponde a x=0, lo que nos permite decir que aquellas esporas sin orificio
tiene un diámetro medio de 11.4 micras).
Si queremos realizar predicciones puntuales y por intervalos, siempre que se asuma
homocedasticidad, independencia y normalidad, pulsamos el botón de configuración de Tablas
y Gráficos, seleccionamos la opción Pronósticos, y seguidamente sobre el panel resultante se
pulsa el botón derecho del ratón, se accede al panel de opciones y se completa con los valores 0,
3 y 5, por ejemplo, lo que conduce a los resultados:

Se obtienen así predicciones a nivel estimativo que afectan a la variable respuesta para los
valores 0, 3 y 5 de la variable regresora: estimaciones puntuales respecto de su valor medio, así
como por intervalos y finalmente estimación por intervalos del valor de la variable dependiente.
Por ejemplo, para las esporas con tres orificios, se predice un diámetro medio de 44.1 micras;

Dpto. Matemática Aplicada (Biomatemática). Facultad de Biología. U.C.M. 77


Introducción al Análisis de la Regresión

con una confianza del 95%, el diámetro se sitúa entre 36.27 y 51.93 micras; y con la misma
certeza del 95% , el diámetro medio se encontrará entre 42.76 y 45.44 micras.

Llegado este punto, nos debemos preguntar -quizás hubiese sido lo previo a considerar- si hemos
procedido de manera adecuada. Las cuestiones a tratar serían:
1º Bajo el supuesto de que el ajuste al modelo lineal es el adecuado, ya que ello parece señalarlo
el valor 0.9438 del coeficiente de determinación (el 94% de la variabilidad detectada en la
variable respuesta se debe a la recta de regresión), ¿difiere de cero significativamente la
pendiente, β, de la recta de regresión o, por el contrario, es un valor despreciable? En el último
caso, significaría que x no explica de ninguna forma el comportamiento de la variable respuesta:
el diámetro se manifiesta de manera independiente al número de orificios. Aparentemente la
respuesta está recogida en dos datos del panel de resultados de la página anterior : los p-valores,
prácticamente nulos, correspondientes respectivamente a los valores de t = 28.40 y f = 806.63,
señalan de manera equivalente el rechazo de la hipótesi nula del siguiente contraste:

⎧H0 : β = 0

⎩H1 : β ≠ 0
2º Sin embargo, a pesar de todo lo anterior, que defiende de manera contundente el postulado de
la linealidad del modelo, no hemos contrastado su adecuación de manera formal y tal
contraste, en nuestro ejemplo, podemos realizarlo al disponer de repetidos valores de la variable
respuesta para cada valor de la variable predictora, y descomponiendo la suma de cuadrados de
los residuos en suma de cuadrados de falta de ajuste más la que corresponde al error puro:
k ni k k ni

∑ ∑ (Yij − Yˆi )2 = ∑ ni(Yˆi − Yi )2 + ∑ ∑ (Yij − Yi )2


i =1 j =1 i =1 i =1 j =1

SSE SSL SS e

El correspondiente análisis de la varianza sobre la posible falta de ajuste del modelo lineal se
obtiene pulsando de nuevo el botón de configuración de Tablas y Gráficos, y seleccionando la
opción Prueba de Carencia de Ajuste, y la sorpresa es que los datos conducen al rechazo
del modelo lineal:

Por ello, vamos a considerar, provisionalmente, la posibilidad de un modelo un poco más


complejo, concretamente un polinomio de grado 3 en x, la variable respuesta:
2 3
E(Yx ) = β 0 + β1x + β2 x + β3 x

Yx = respuesta de Y, para el valor x

Dpto. Matemática Aplicada (Biomatemática). Facultad de Biología. U.C.M. 78


Introducción al Análisis de la Regresión

De la barra de menús seleccionamos Relacionar … Un Factor … Regresión Polinomial


…, completamos los campos de la variables y sobre el panel de opciones que se presenta se
completa con el grado 3; obteniéndose se muestra a continuación:

Podemos observar que el coeficiente de determinación múltiple ha mejorado pero de manera


poco apreciable y en este caso, sin embargo, la adecuación de modelo no es rechazada (P-valor
0.1495). Seleccione para verlo, y actuando como en el modelo lineal, el ANOVA sobre falta de
ajuste, pulsando el botón de configuración de paneles de resultados (icono amarillo con
block). De este modo se presenta el siguiente panel:

Comentario sobre este caso práctico: Todo lo anterior parece defender la consideración de un
modelo más complejo que el lineal. Sin embargo, en este ejemplo y a efectos prácticos, la
simplicidad del modelo lineal no debería descartarse, ya que la mejora no es realmente
sustancial. Convendría que el alumno ahonde en esta observación como motivo de reflexión.

Dpto. Matemática Aplicada (Biomatemática). Facultad de Biología. U.C.M. 79


Introducción al Análisis de la Regresión

۞ CASO PRÁCTICO Nº 16 A RESOLVER POR EL ALUMNO


Se desea analizar la capacidad de predicción de la edad sobre la presión arterial sistólica y, en su
caso, si un modelo lineal sería lo conveniente. Los datos correspondientes a una muestra de
individuos sin patologías aparentes se encuentran en las variables PAS y Edad, del fichero de
datos de prácticas. (Los resultados y respuestas a las cuestiones planteadas se reflejarán en
hoja anexa que será entregada en la sesión práctica)

۞ CASO PRÁCTICO Nº 16 bis A RESOLVER POR EL ALUMNO


En las prácticas realizadas en el laboratorio de Bioquímica se ha ensayado la actividad de la
enzima fosfatasa alcalina a diferentes concentraciones de sustrato y a diferentes tiempos de
incubación para cada una de dichas concentraciones.
En el fichero de datos se relacionan las diferentes concentraciones de sustrato ensayadas ([S],
mM, variable sustrato), así como las velocidades iniciales (V0, U.A.min-1, variable V0) de la
reacción catalizada por la enzima que han sido determinadas por los alumnos para las diversas
concentraciones de sustrato.
Partiendo de los datos experimentales proporcionados calcule los parámetros cinéticos, Vmax y
Km, de la fosfatasa alcalina a partir de una representación de Lineweaver-Burk o de dobles
inversos.

1/v0

Pendiente
Km/Vmáx

1/Vmáx

1/[S]
-1/Km

(Los resultados y respuestas a las cuestiones planteadas se reflejarán en hoja anexa que
será entregada en la sesión práctica)

Dpto. Matemática Aplicada (Biomatemática). Facultad de Biología. U.C.M. 80


Introducción al Análisis de la Covarianza

Introducción al análisis de la covarianza

El análisis de la covarianza es una técnica que combina el análisis de la varianza con el análisis
de la regresión, y es un caso particular del llamado Modelo Lineal General. Vamos a presentar,
como hemos hecho en casos anteriores, el modelo más simple de esta técnica, que considera tan
sólo una variable, x, concomitante, llamada covariante; y tan sólo un factor (vía) a efectos o
tratamientos fijos, todo ello respecto de una variable respuesta Y; y, además, que la pendiente, β,
del modelo lineal, que afecta a la covariante, es idéntica se cual sea el nivel considerado en el
factor. Para ilustrar este procedimiento abordaremos un ejemplo interesante (extraído de Applied
Regression Analysis and other Multivariable Methods, Kleinbaum et alt., Duxbury Press, 2008),
partiendo del factor sexo, con dos niveles, mujer y hombre, respecto de la respuesta Y = PAS
(presión arterial sistólica), añadiendo como covariante x, la edad. El análisis de la covarianza
permite descomponer la variabilidad de la respuesta en dos partes, la que corresponde a los
tratamientos del factor, de aquélla asignada a la variable concomitante, en este caso, la edad. Este
modelo aborda las siguientes cuestiones.
1º ¿Es el efecto de la edad significativo, al margen del nivel que se manifieste, respecto de
sexo?, es decir, ¿explica la edad, en alguna medida o cuantía significativa, parte de la
variabilidad detectada en la presión arterial diastólica?
2º Si descontamos el efecto de la edad, ¿es la presión arterial media similar en hombres y en
mujeres?, es decir, ¿es la presión arterial media similar en hombres y mujeres de la misma edad?
Para responder a tales preguntas, se considera el siguiente modelo para una situación general y
que afecta a las observaciones:

Yij = µi + β xij + E ij , i=1,...,k ; j=1,...,ni

con Eij independientes, N(0,σ). Donde

µi + β xij = E(Yi | xij )


µi = parte del valor esperado de Yi | xij
debida en exclusivo al tratamiento

Si se considera para cada nivel o tratamiento i, la recta de regresión estimada, es decir, la


estimación del valor esperado de Yi, para un nuevo valor xij de la covariante (condicionado al
nuevo valor xij de la covariante), ésta puede expresarse de la siguiente forma:

ŷij = yi. + ˆ
β(xij − x i. )
donde

ni ni

∑ xij ∑y ij
j =1 j =1
xi. = ; yi. =
ni ni

son las medias muestrales que se obtienen de los datos disponibles, en la muestra bivariante, del
i-ésimo tratamiento.
Si β es nulo, la covariante no explica, no altera la variabilidad o el comportamiento de la variable
respuesta (al menos linealmente).
Los contrastes, por tanto, de interés son dos:

⎧H0 : β = 0
⎨ (1)
⎩H1 : β ≠ 0
y

Dpto. Matemática Aplicada (Biomatemática). Facultad de Biología. U.C.M. 81


Introducción al Análisis de la Covarianza

⎧H0 : µ1 = µ 2 = ... = µ k
⎨ (2)
⎩H1 : a l menos dos difieren
(Par ver el detalle de las expresiones de las sumas de cuadrados en los dos análisis de la varianza
que se desarrollan al efecto, véase, por ejemplo, página 289 y siguientes de Linear Statistical
Inference and its Applications, de C. R. Rao, Wiley ed., 1973; o página 192 y siguientes de The
Analysis of Variance“, Scheffé H., John Wiley ed. 1959 ).

Nota: En el caso de asumir que β ≠ 0, y se rechace la hipótesis nula de (2), el modelo predictivo
para el i-ésimo tratamiento sería

(n1 − 1)s x ˆ
β1 + ... + (nk − 1)s x ˆ
2 2
βk
ŷ ij = y i. + ˆ
β(x ij − xi. ) , donde ˆ
β =
1.

2 2
k.

(n1 − 1)s x + ... + (nk − 1)s x


1. k.


β r sería la estimación de la pendiente,

considerando sólo los valores de la covariante

del r - ésimo tratamiento.

CASO PRÁCTICO RESUELTO que deberá reproducir el alumno.

Volviendo al caso práctico, seleccionamos de la barra de menús Comparar … Análisis de


Varianza … ANOVA Multifactorial … ; y completamos los campos de la ventana de
configuración del análisis y mantenemos la interacción de orden 1:

y resulta el siguiente panel:

Dpto. Matemática Aplicada (Biomatemática). Facultad de Biología. U.C.M. 82


Introducción al Análisis de la Covarianza

Por tanto, en ambos análisis de la varianza se observa una altísima significación, lo que conduce
a defender la hipótesis de que el efecto de la edad y el del sexo afectan al valor de la presión
arterial sistólica: parece que las mujeres, en media, tienen diferente (menos) presión arterial
sistólica que los hombres, para cualquier edad, es decir, sea cual sea la edad considerada; y
en ambos niveles (mujer y hombre), la PAS media se modifica (aumenta) con la edad.
Una manera de ver con más detalles lo que parece estar ocurriendo, pasaría por determinar las
rectas de regresión (que son modelos predictivos de interés) por separado para cada uno de los
dos niveles (sexo=1 en hembras, sexo=0 en machos) y comprobar, aunque sea de manera
informal, el siguiente supuesto de este modelo: que las pendientes son muy similares (la
pendiente, en este caso, informa sobre el aumento o disminución medio de la presión arterial
sistólica por cada año que aumentase la edad). Hágalo, siguiendo las instrucciones de la
página 75 y siguientes de este guión.

Sin embargo, si hubiésemos utilizado un modelo de regresión múltiple con dos variables
predictivas, la edad x ; y una variable indicadora (dummy) z, que toma el valor 1 en hembras y 0
en machos, para controlar el posible efecto del sexo; en la forma siguiente:

Y = β 0 + β1 x + β2 z + β 3 xz +E

estaríamos considerando; a través de β1 el posible efecto de la edad; a través de β2 el posible


efecto del sexo; y a través de β3 el posible efecto de la interacción entre la edad y el sexo, lo
cual conllevaría, si β3 ≠ 0, a que las rectas de regresión de machos y hembras tuviesen
pendientes distintas y pudiesen ocurrir, por ejemplo, que para un grupo de edades la PAS fuera
mayor en machos que hembras y esta situación si invirtiese para otro grupo de edades, en donde
la PAS fuese mayor en mujeres que en hombres.
Dado que estos modelos quedan fueran de los objetivos, ciertamente mínimos, de esta asignatura
de primer curso, remitimos al lector curioso o interesado al ya mencionado excelente manual,
Applied Regression Analysis and other Multivariable Methods, de Kleinbaum et alt., o bien al
no menos excelente libro: Métodos Multivariantes en Bioestadística, de Víctor Abraira et alt.,
Ed. C.E. Ramón Areces, 1996.

Dpto. Matemática Aplicada (Biomatemática). Facultad de Biología. U.C.M. 83


Introducción al Análisis de la Covarianza

۞ CASO PRÁCTICO Nº 17 A RESOLVER POR EL ALUMNO


El fichero de prácticas incluye tres variables, Tratamiento, LDLA_LDLD y IMC, que hacen
referencia a los datos u observaciones obtenidos al comparar tres tratamientos contra la
hipercolesterolemia moderada, y contemplando el posible efecto, como covariante, del índice de
masa corporal (variable IMC, en kg/m2), tomado en cada individuo al iniciarse su tratamiento.
Concretamente, se identifica con 1 al tratamiento “dieta muy baja en grasas”; con 2 “ingestión
diaria de 20 mg de un fármaco del grupo de las estatinas”; con 3 “ingestión diaria de 40 mg del
mismo fármaco”. La variable respuesta (LDLA_LDLD) es la diferencia entre el nivel de LDL
(lipoproteína de baja densidad) antes y después del correspondiente tratamiento (que tiene una
duración de 4 meses), en cada individuo, medido en mg/dl.
Esta última práctica tiene la finalidad de analizar el conjunto de datos con las herramientas y
procedimientos que el alumno estime convenientes. (Los resultados y respuestas a las
cuestiones planteadas se reflejarán en hoja anexa que será entregada en la sesión práctica)

Dpto. Matemática Aplicada (Biomatemática). Facultad de Biología. U.C.M. 84