Вы находитесь на странице: 1из 117

GUA DIDCTICA DE LA UNIDAD CURRICULAR ANLISIS DEL

DATO ESTADSTICO II

Elaborada por los Profs.: Carolina Pea, Gioconda Briceo, Manuel Godoy y
Roberto Herrera del PFG en Gestin Ambiental-UBV, Sede Caracas,
Septiembre 2005.

MDULO I: LA ESTADSTICA: Herramienta fundamental en


diversos escenarios de aplicacin.

OBJETIVO: Cuando el estudiante haya terminado esta unidad, el comprende


la importancia de la estadstica sus conceptos bsicos y aplicaciones

COMPETENCIAS A LOGRAR:

1. Comprende las definiciones bsicas como son: Estadstica, Estadstica


Descriptiva, Estadstica Inferencial, Diferencia entre una variable discreta
y una continua, niveles de medicin, Poblacin, Muestra, Parmetro y
Estadstico.
2. Comprender la importancia de obtener buenos datos y los mtodos para
su obtencin.
3. Comprende cada una de los procesos que involucra una investigacin
estadstica
4. Define la metodologa a emplear en la recoleccin de datos.
5. Disea el instrumento para la recoleccin de datos
6. Comprende la Importancia de la estadstica en la vida diaria y en la
formulacin, ejecucin y validacin de proyectos.

CONTENIDOS

1.1. Qu es la estadstica?

La ciencia de reunir, organizar, presentar, analizar e interpretar datos para


ayudar a tomar mejores decisiones.

1.1.1. Qu significa estadstica?

En nuestro lenguaje cotidiano estadstica se refiere a informacin numrica,


pueden presentarse tanto en forma grafica como en tablas.

Ejemplos:
El nmero de nios que viven en una determinada parroquia de
Caracas.
El porcentaje de graduados de las universidades pblicas del pas
El salario promedio de los habitantes de la parroquia La Vega.
El nmero de decesos anuales debidos al alcoholismo.
El nmero de goles anotados por la vino tinto.

1.1.2. Por que se estudia la estadstica?

Hay tres razones para estudiar estadstica:

1. Hay datos en todas partes.


2. Las tcnicas estadsticas se usan para tomar muchas decisiones
que afectan nuestro bienestar.
3. No importa cual sea su lnea de trabajo, tomara decisiones que
involucren datos

1.1.3. Cul es la utilidad de la estadstica?

Es una herramienta que ayuda a interpretar los datos generando


informacin y conocimiento de la realidad.

Ayuda a obtener la informacin indispensable en la planificacin de las


soluciones necesarias en las comunidades y en otros escenarios.

La informacin procesada sirve de base en la ejecucin de cualquier


proyecto.

1.2. TIPOS DE ESTADISTICA


1.2.1. Estadstica Descriptiva:
Consiste en procedimientos usados para organizar, organizar, presentar,
analizar datos.

Ejemplo: De acuerdo a los datos suministrados por el Instituto Nacional de


Estadstica (I.N.E)

Cuadro 1 Hogares y personas en situacin de pobreza


primer semestre 2004
Tipo de Pobreza Nmero de Porcentaje
Hogares
No Pobres 2.639.159 46,9
Pobres 2.984.988 53,1
Pobres Extremos 1.319.608 23,5
Personas
Tipo de Pobreza Nmero Porcentaje
No Pobres 9.610.104 39,9
Pobres 14.503.748 60,1
Pobres Extremos 6.776.393 28,1
1.2.2. Estadstica Inferencial o Inductiva:

Se ocupa de tomar una muestra de una poblacin y hacer estimaciones acerca


de la poblacin basndose en los resultados de la muestra.

Ejemplo: La cooperativa de enlatados de Ro Caribe pidi a una muestra


1.960 consumidores probar una variedad de atn enlatado con
organo llamado Delicias de Sucre. De los 1.960 encuestado
1.176 dijeron que compraran el atn si lo ponan en venta

Que informacin obtuvo la cooperativa de enlatados de Ro Caribe


acerca de la aceptacin del atn con organo por la poblacin?. Es
ste un ejemplo de estadstica descriptiva estadstica inferencial?
Tome este ejemplo responda las preguntas y agrguelo su portafolio

1.3. POBLACIN

Es el conjunto total de individuos u objetos.

Ejemplo: Los pacientes de los hospitales pblicos del pas.

1.3.1. PARMETRO:

Es la caracterstica numrica correspondiente a la poblacin

Ejemplos:

Caracterstica Smbolo del Parmetro


Nmero de datos u observaciones N
Media
Desviacin Estndar
Varianza 2

1.4. MUESTRA:

Es una parte de la poblacin.

Ejemplo: De la poblacin anterior, los pacientes del hospital de los


Magallanes de Catia.

1.4.1. ESTADSTICO:

Es la caracterstica numrica correspondiente a la muestra

Caracterstica Smbolo del Estadstico


Nmero de datos u observaciones n
Media X
Desviacin Estndar s
Varianza s2

1.5. DATOS
1.5.1. El Dato:

Es la informacin necesaria para ayudarnos a tomar una decisin con ms


bases en una situacin en particular.

1.5.2. Para que necesitamos recolectar datos?

a) Ayuda en el proceso de toma de decisiones, cuando se estudia un


determinado evento
b) Mide el desempeo en un servicio o proceso de produccin en curso
que realizan las distintas comunidades.

1.6. TIPOS DE DATOS

Datos

Cualitativa o Categrica: Son aquellas Cuantitativa o Numrica: Son


caractersticas o variables que no son aquellas caractersticas o variables
numricas es decir denotan cualidad, que son numricas es decir
categora o atributos producen respuesta numrica
Ejemplo:
- El tipo de auto que
prefieres
- Genero Discretas: Son respuestas Continuas: Son respuestas
numricas que surgen del numricas que surgen del
proceso de conteo. Usa proceso medicin. Usa
nmeros Enteros nmeros decimales

Ejemplo: Ejemplo:
- Numero de hijos por familia - Peso de los
alumnos
- Nmero de empleado por empresa - Kilmetros
recorridos
- Nmero de televisores vendidos en el ao entre cambio de
aceite
1.7. PLANEAMIENTO Y EJECUCIN DE UNA INVESTIGACIN
ESTADSTICA.

El planeamiento y ejecucin de la investigacin estadstica abarca los


siguientes pasos:
1. Formulacin de problema especifico de la investigacin
2. Desarrollo del mtodo e instrumento para la obtencin de los datos.
3. Recoleccin de los datos
4. Clasificacin de los datos
5. Anlisis estadstico.
6. Interpretacin de los resultados

1. Formulacin de problema especifico de la investigacin

Este paso consiste en la definicin del evento, fenmeno o objeto y finalidad de


la investigacin. Para poder lograr la exacta definicin es necesario detener
conocimiento sobre el objeto a investigar

2. Desarrollo del mtodo e instrumento para la obtencin de los


datos.

Este paso tiene un carcter subjetivo, ya que en l se necesita del esfuerzo


creativo y constructivo del investigador. Es necesario estudio de: Antecedentes
y experiencias similares, recursos, alcance y limitaciones.

3. Recoleccin de los datos

Este es el paso mas importe dentro de la investigacin estadstica. La


recoleccin de datos es el fin del planeamiento y ejecucin de la investigacin
estadstica. Previo se ha de definir el universo es decir definir cuales son los
casos individuales que han de ser estudiados y luego hay que disear el
instrumento para su recoleccin.

4. Clasificacin de los datos

Este paso consiste en la clasificacin de los datos mediante:


La revisin: Consiste en la inspeccin de los registros donde se han
reunido los datos para corregir los errores, las respuestas
ilgicas y las emisiones
El agrupamiento.
Significa volcar en una hoja todos los datos contenidos en
los cuestionarios (instrumentos).
La presentacin (tablas y Grficos) de los datos
Luego de la agrupacin de los datos estos se pueden
presentar ordenados en tablas cuadros y mediante de
representacin graficas.
5. Anlisis estadstico.

En este paso se calcula todas las medidas o caractersticas numricas


6. Interpretacin de los resultados

Consiste en traducir las medidas caractersticas numricas obtenidas en el


lenguaje relativo al objeto o evento estudiado. Se interpreta los resultados
emitiendo en este momento opinin sobre lo estudiado.
1.8. OBTENCION DE DATOS

1.8.1. Mtodos para obtener los datos:

1. Datos publicados por fuentes gubernamentales

2. Diseo de un experimento.

3. Aplicar una encuesta

4. Realizacin de un estudio observacin directa

Busque informacin sobre los mtodos antes mencionados y


agrguelo a su portafolio

1.8. NIVELES DE MEDICIN

Hay cuatro niveles de medicin:

1.8.1. Datos de nivel nominal:

Los datos se presentan agrupados en categoras sin que se exprese un orden


dentro de las categoras.

Propiedades:
a) Las categoras son mutuamente excluyentes. Un individuo u
objeto pertenece solo a una categora
b) Las categoras son exhaustivas. Un individuo u objeto
pertenece cuando mucho a una categora

Ejemplo: Genero (hombre, Mujer)


Nmero de estudiantes con credencial que entran a juego de ftbol
y que sean mujeres.
Nmero de revistas deportivas

1.8.2. Datos de nivel ordinal

Supone que cada categora es superior a otra

Propiedades:
a) Las categoras de datos son Mutuamente excluyentes y
exhaustivas.

b) Las categoras de datos estn clasificadas u ordenadas de


acuerdo con las caractersticas especiales que poseen

Ejemplo: Lista de las calificaciones que los alumnos dieron a un profesor de la


UBV en el curso de PIUNI
Calificacin Frecuencia
Superior 6
Bueno 28
Aceptable 25
Pobre 12
Inferior 3

1.8.3. Datos de nivel de intervalo

Tiene la caracterstica de orden de nivel ordinal de medicin y adems la


caracterstica que la distancia entre las medidas tiene significado

Ejemplo: La temperatura en grados kelvin


El tiempo calendario, ejemplo el calendario Gregoriano

1.8.4. Datos de nivel de razn

Es el nivel de medicin mas alto, este tiene todas las caractersticas del nivel
de intervalo, pero adems el punto 0 tiene significado y la relacin entre dos
nmeros tiene sentido

Ejemplo: Peso de las personas


La densidad de un objeto
El salario diario de los miembros de la comunidad
La altura de las personas

1.9. Caracterstica del instrumento (Formulario Cuestionario) para


aplicar una encuesta.

Es necesario elaborar una lista de preguntas cuya constatacin proporcione los


datos de cada caso individual, la presentacin ordenada y sistemtica de dicha
lista de preguntas se denomina cuestionario, formulario instrumento de
captacin de datos.

El cuestionario consta de dos partes:

1. La que contiene la informacin que la identifica

Nombre de la encuesta
Titulo del cuestionario
Objetivo
Institucin que lo respalda
Lugar y fecha.

2. La que contiene los datos objeto de la investigacin estadstica

Los datos personales no interesa a la investigacin

Para la elaboracin de las preguntas hay que tomar en cuentas los siguientes
puntos:
Hay que tomar en cuenta quien anotar la respuesta en el
cuestionario (El entrevistado el entrevistador)
Hay que tomar en cuenta el aspecto, contenido y extensin que debe
tener el cuestionario.
Se determinara el menor nmero de preguntas que ofrezcan mejores
y mayores numeraos de datos.

Para obtener resultados lgicos, verdaderos y precisos es preciso seguir los
siguientes pasos al redactar las preguntas:

Sencillez en la preparacin

Claridad en la redaccin y presentar ambigedad

Discrecin en las preguntas

Facilidad de contestacin

Ordenamiento lgico de preguntas

1.10. ACTIVIDADES PROPUESTAS

Lea con cuidado la gua antes de realizar las actividades


Resuelve los siguientes ejercicios e incorprelos a su portafolio:
a) Explique la diferencia entre datos cualitativos y datos cuantitativos
b) Explique la diferencia entre una muestra y una poblacin
c) Recolecte dentro de su grupo familiar las siguientes datos:
Edad, sexo, altura y color de ojos.
Cuales de los datos son cualitativos o cuantitativos?.
Determine el nivel de medicin de cada unos de los datos?
d) Busque en la pagina Web del INE que dan la informacin
poblacional, fuerza de trabajo (poblacin ocupada).Tome los cuadros
correspondiente al primer semestre de 2004.
Considere las siguientes variables: Poblacin y fuerza de trabajo
Cual de las anteriores variable son cualitativa y cual cuantitativa?
Determine el nivel de medicin de cada unos de los datos?
Busque en la prensa informacin estadstica. Comente su utilidad y
aplicacin e inclyalo en su portafolio.
Escribe un ensayo sobre la utilidad de la estadstica en la formulacin,
ejecucin y seguimientos de proyectos y trabajos de investigacin e
inclyalo en su portafolio
Trasldese en compaa de su profesor de Proyecto I a la comunidad o
lugar donde se ejecutar. el proyecto:
1. identifique las variables presentes que sern consideradas dentro
de su diagnstico.
2. Todos y cada uno de los grupos escogern un conjunto de estas
variables, las cuales clasificar segn sus caractersticas e
inclyalo en su portafolio
3. Identifica la utilidad de esta investigacin y de las variables
escogidas
4. Formule el problema especifico de la investigacin
5. Escoge el mtodo de muestreo a aplicar en la recoleccin de
muestras
6. Disea el instrumento para la recoleccin de las puntos
muestrales o datos, siguiendo las recomendaciones presentada
en la gua.
7. Aplica el instrumento y recolecta los datos en campo.
8. Recuerda trabajar en campo usando solo lpices de grafito, nunca
con bolgrafo
Recuerda sistematizar todas y cada una de las actividades y generar un
reporte para tu portafolio.

TEMA I: PROBABILIDAD BASICA Y SUS DISTRIBUCIONES

OBJETIVO: El estudiante comprende la importancia del uso de las


probabilidades y distribuciones en la estadstica y sus aplicaciones.

COMPETENCIAS A LOGRAR:

7. Comprende las definiciones bsicas como son: Probabilidad, Diferentes


tipos de probabilidad, diferentes distribuciones de probabilidades:
Normal, Poisson, entre otras.
8. Comprende la importancia de obtener buenos resultados en las
probabilidades y sus distribuciones.
9. Comprende cada uno de los procesos que involucra una investigacin
estadstica inferencial.
10. Define la fuente y afina las herramientas para el manejo de la
probabilidad y sus distribuciones en las necesidades y complejidad de
los distintos escenarios.
11. Disea el instrumento para la recoleccin de datos.
12. Comprende la Importancia de la probabilidad y sus distribuciones en la
vida diaria y en la formulacin, ejecucin y validacin de proyectos.

CONTENIDOS
1. Qu es la probabilidad?

Es el nmero al que tiende la frecuencia relativa de un suceso que esta


asociada al nmero de veces que se realiza el experimento.

Por definicin, entonces, la probabilidad se mide por un nmero en que


se localiza entre cero y uno: Si un suceso no ocurre nunca, su probabilidad
asociada es cero, mientras, que si ocurriese siempre su probabilidad sera igual
a uno.

As, las probabilidades suelen venir expresadas como decimales,


fracciones o porcentajes.

Su frmula se expresa de la siguiente manera:

f
P= ; Donde f: nmero de casos favorables
n
n: nmero de casos posibles o realizados

Variable: Es una caracterstica de inters acerca de cada elemento de una


poblacin o una muestra. Las variables en las probabilidades se
clasifican de la siguiente manera:

Variable independiente: es aquella propiedad de un fenmeno a la que


se le va a evaluar su capacidad para influir, incidir o afectar a otras
variables.
Ejemplo: El tiempo transcurrido en una hectrea de rboles en la zona
de Las Delicias del Estado Aragua.

Variable dependiente: puede ser definida como los cambios sufridos por
los sujetos como consecuencia de la manipulacin de la variable
independiente por parte del experimentador.
Ejemplo: La crecimiento de la poblacin del gusano de palma en el
Parque del Este en Caracas en los meses de Octubre- Diciembre
del ao 2003.

Variable aleatoria: variable que toma diferentes valores como resultado


de un experimento aleatorio.

Variable aleatoria continua: variable aleatoria que puede tomar infinitos


valores dentro de un rango cualquiera.

Variable aleatoria discreta: variable que toma un nmero finito o


infinito de valores numerables.

Qu es un experimento?
Es todo proceso que produce un resultado u observacin.

Qu es un Espacio Muestral?
Es el conjunto de todos los resultados posibles de un evento proceso
se simboliza por letras maysculas, S = {rboles, ros, casas,}, tambin
se pueden representar en cuadros o formatos ya elaborados.

Qu es un Evento?
Es cualquier subconjunto del espacio muestral.

Ejemplo: En la UBV, se clasific a cada estudiante de acuerdo con aos y


sexo. Los resultados se resumen en la siguiente tabla:

\ varones y hembras
Aos Varones (V) Hembras (H) TOTAL
2002 (1er ao) 100 80 180
2003 (2do ao) 70 50 120
2004 (3er ao) 50 40 90
TOTAL 220 170 390

Determine la probabilidad de que al seleccionar el estudiante al azar sea:

1. De segundo ao P1
2. Hembra P2
3. De tercer ao P3
4. Varn P4

Solucin:
Se procede de la siguiente manera:

Los eventos son: f: el estudiante elegido sea de segundo ao.


n: el estudiante elegido sea hembra.

Se calcula las cuatro probabilidades a la vez:

120
p1 = = 0,3076 P1= 0,3076; P1= 30,76%
390

170
P2 = = 0, 4358 P2 = 0,4358; P2 = 43,58%
390

90
P3 = = 0, 2307 P3 = 0,2307; P2 = 23,07%
390

220
P4 = = 0,5641 P4 = 0,5641; P4 = 56,41%
390
Interpretacin: Esto quiere decir que:
1. Existe el 0,3076 30,76 % de probabilidad de que
sea de segundo ao,
2. El 0,4358 43,58% de probabilidad de que sea
hembra.
3. Existe el 0,2307 23,07 % de probabilidad de que
sea de tercer ao,
4. El 0,5641 56,41% de probabilidad de que sea
varn.

PROPIEDADES DE LA PROBABILIDAD:

Si el evento no puede ocurrir, su probabilidad es igual a cero.


Si el evento ocurre, entonces su probabilidad es igual a uno.
Esto es, 0 P(A) 1

En otra forma P(A) = 0


P(A) = 1

Ejemplo: En los archivos de una clnica mdica se han clasificado pacientes


por su sexo y tipo de diabetes (I o II). Los grupos se exhiben a continuacin. El
cuadro indica el nmero de pacientes en cada clase.

\ tipos de diabetes Tipo I


sexo Tipo II TOTAL
Masculino 25 20 45
Femenino 35 20 55
TOTAL 55 40 95

Si se selecciona un archivo aleatoriamente, determine las probabilidades de


que el individuo seleccionado:
a.- sea de sexo femenino
b.- tenga diabetes del tipo II

Solucin: Se procede de la siguiente manera:

Los eventos son: f: Los pacientes de diabetes tipo II.


n: Los pacientes femeninos de diabetes tipo II.

Se calcula las cuatro probabilidades a la vez:

55
P1 = = 0,578 P1= 0,578 ; P1= 57,8%
95

40
P2 = = 0,010 P2 = 0,010; P2 = 0,10%
95
55
P3 = = P3 = ; P 2 = %
95
55
P4 = = 0 P4 = ; P 4 = %
95

Interpretacin: Esto quiere decir que:

1.- Existe el 0,578 57,8 % de probabilidad de que sea


de tipo II.
2.- El 0,010 0,10% de probabilidad de que sea
femenino.
3.- Existe el 0,2307 23,07 % de probabilidad de que
sea de tercer ao,
4.- El 0,5641 56,41% de probabilidad de que sea
varn.

REGLAS DE PROBABILIDAD PARA LA ADICIN Y EL PRODUCTO


Si se tienen dos eventos cualesquiera, identifiqumoslo con las letras
maysculas A y B, entonces

Para la adicin: P(A o B) = P(A) + P (B) P(A B)


Y tambin, P(A o B) = P(A) + P (B)
Para eventos independientes:
Probabilidad condicional: P(A/B) = P(A y B) / P (B)

Para el Producto: P(A y B) = P(A) . P(B /A)


O bien P(A y B) = P(B) . P(A /B)

P(A y B) = P(A) . P(B)

1.1.4. TIPOS DE PROBABILIDADES:

1. Probabilidad simple: Probabilidad de que el dato escogido tenga una


caracterstica.
Ejemplo: Cuando se trata de persona; es hombre o mujer.

2. Probabilidad conjunta: Probabilidad de escoger un dato con dos (o ms)


caractersticas especficas.
Ejemplo: Cuando se trata de persona; es hombre o mujer, la talla y peso; son
ms de dos caractersticas.
Para el estudio de este tipo de probabilidad conjunta lo detallaremos de
la manera siguiente:
- Probabilidad Conjunta de eventos mutuamente excluyentes: Son
aquellos eventos definidos de manera que la ocurrencia de uno es
imposible la ocurrencia de los dems, (brevemente, si alguno de ellos
sucede, los restantes no pueden suceder). Se denotan en la frmula con
la letra .
- Probabilidad Conjunta de eventos solapados: Dos o ms eventos
son solapados si tienen puntos muestrales comunes, estos puntos
maestrales forman una interseccin entre ellos. Se denotan en la
frmula con la letra y.
- Probabilidad Conjunta de eventos complementarios: Dos eventos
son complementarios si el segundo eventos tiene todos los puntos
muestrales que no estn en el primer evento.

- Probabilidad Conjunta de eventos independientes: Dos eventos son


independientes cuando la ocurrencia o no ocurrencia de uno de ellos en
una prueba, no afecta la probabilidad del otro en cualquier otra prueba.
- Probabilidad Conjunta de eventos dependientes: Dos o ms eventos
son dependientes cuando el conocimiento de la verificacin de uno de
ellos, altera la probabilidad de verificacin del o de los otros.

Ejemplo: Una compaa desea probar un producto en una zona comercial


seleccionada aleatoriamente. Las reas pueden ser clasificadas con base en
su ubicacin y densidad de poblacin. A continuacin en la tabla siguiente se
presenta el nmero de mercados en cada categora:

DENSIDAD DE POBLACIN
UBICACIN Urbana(U) Rural (R) TOTAL
Cul Este (E) 25 50 75 es la
Oeste (O) 20 30 50
TOTAL 45 80 125
probabilidad de que el mercado seleccionado para la prueba est en el este
P(E)?
Cul es la probabilidad de que el mercado seleccionado para la prueba est
en el oeste P(O)?
Cul es la probabilidad de que est localizado en un rea urbana P(U)?
Cul es la probabilidad de que est localizado en un rea rural P(R)?
Cul es la probabilidad de que el mercado este en un rea rural al oeste, P(R
y O)?
Cul es la probabilidad de que est al este o dentro de un rea urbana, P(E
U)?
Cul es la probabilidad de que si est en el este, est localizado en un rea
urbana, P(U/ E)?
Son independientes la ubicacin y la densidad de poblacin?

Solucin: Las primeras cuatro probabilidades, P(E), P(O), P(U), y P(R)


representan preguntas del tipo o; esto quiere decir que los componentes son
mutuamente excluyentes, estas probabilidades se pueden resolver aplicando la
frmula conocida, obteniendo las probabilidades sumando cada caso a travs
de las hileras o columnas del cuadro. En consecuencia los totales se
encuentran en el total de columnas o hileras.
75
P E = (Total para el estudio dividido entre el nmero total de
125
mercados)

50
P O = (Total para el oeste dividido entre el nmero total de
125
mercados)

45
P U = (Total para la ubicacin urbana dividido entre el nmero total de
125
mercados)

80
P R = (Total para la ubicacin rural dividido entre el nmero total de
125
mercados)

Ahora se obtendr P(O y R). Hay 30 mercados en el Oeste y 125


30
mercados en total. As: P O y R =
125

Ntese que P(O).P(R) NO proporciona la respuesta correcta


50 80 32
125 125 = 125 . En consecuencia, ubicacin y densidad de poblacin

son eventos dependientes.

La probabilidad P (E U) puede hallarse en varias formas. La ms


directa es examinando simplemente el cuadro y contando el nmero de
mercados que satisfacen la condicin de estar en el este o ser urbanos. El
nmero obtenido es
95 = (25 + 50 + 20). As:

95
P E U =
125

Ntese que los primeros 25 mercados estn en el este y son urbanos;


as E y U no son eventos mutuamente excluyentes.

Otra manera de encontrar P (E U) es utilizando la frmula de la


adicin:
P E o U = P(E) P(U) - P(E y U) , lo cual produce:

75 45 25 95
=
125 125 125 125

Una tercera forma de resolver el problema consiste en reconocer el


complemento de (E U) es (O y R). As P(E U) = 1 P(O y R). Utilizando el
30 95
clculo anterior se obtiene 1 - =
125 125
Finalmente se obtendr P(U/E). Si se examina el cuadro anteriormente
dado puede hacerse que hay 75 mercados en el Este. De estos, 25 son
urbanos. As:

25
P U / E =
75
Tambin puede utilizarse la frmula de la probabilidad condicional:

25
P (U y E) 25
P U /E = 125 =
P(E) 75 75
125

Ubicacin y densidad de poblacin NO son eventos independientes


(para este caso). Son dependientes, esto significa que loa probabilidad de
estos eventos resulta afectada por la ocurrencia del otro.

3. Probabilidad marginal (al margen de la tabla): No es ms que la


probabilidad simple, vista con otro enfoque; o sea, mientras que la probabilidad
simple es un concepto singular, la probabilidad marginal es esencialmente una
suma de probabilidades conjuntas.

Ejemplo: Se present en el ejemplo de la tabla del primer ejemplo.

2.1. DISTRIBUCIN.

2.1.1. Qu es la Distribucin?
La distribucin probabilstica es esencialmente una explicacin del
comportamiento de un determinado fenmeno, es una herramienta
imprescindible para tomar decisiones en aspectos donde de alguna forma
intervenga la incertidumbre.

Existen varios tipos de distribuciones, las cuales son:

2.2.1. Distribucin Binomial


Una distribucin sigue la ley binomial siempre y cuando se cumplan las
siguientes hiptesis:
1.-Un experimento es repetido varias veces, siendo sus resultados
independientes.
2.-Los resultados de cada experimento se pueden clasificar en dos categoras
mutuamente excluyentes, llamadas xito o fracaso.
3.-Las probabilidades de xito o fracaso en una sola prueba, designadas
respectivamente por p y q, donde q =1 p, son invariables en todas las
pruebas o experimentos.
4.-En cualquier experimento, el centro de inters estriba en si los resultados
esperados ocurren o no.
5.- El experimento se realiza en las mismas condiciones un nmero fijo de
pruebas n.
6.- La distribucin es asimtrica negativa si; p > 0,5 p >1/2
7.- La distribucin es asimtrica positiva si; p< 0,5 p < 1/2
8.- Es simtrica la distribucin cuando p = 0,5 p = 1/2
9.- La distribucin binomial se plica cuando la muestra proviene de una
poblacin infinita o cuando es extrada de una poblacin finita con
remplazamiento.
Su expresin matemtica es:

P = k, n, p = nk p k q n - k

Ejemplo: El 60% de las historias clnicas de un hospital de Caracas


corresponden a adolescentes. Si se seleccionan 5 historias clnicas, Cul es
la probabilidad de que ellas correspondan a adolescentes?

Solucin: 1.- La ecuacin es


P = k, n, p = nk p k q n - k

2.- k es la cantidad de xitos esperados: k = 3


3.- n es la muestra seleccionada: n = 5
4.- p es la probabilidad de xito: p = 60/100 = 3/5
5.- q es la probabilidad de no xito: q = 1 p = 1 3/5 = 2/5
6.- Se desarrolla el nmero combinatorio:

n! 5! 5 . 4 . 3!
nk = 53 = = =
n - k ! . k! 5 - 3 ! . 3! 5 3 ! . 3!

20
donde; = = 10
2 .1

7.- Se sustituyen los valores en la frmula:

P(3, 5, 3/5) = 10 . (3/5) 3 . (2/5)5-3 =10 .(27/125). (4/25) = 1080/3125


=0,3456.

Interpretacin: Si el 60% de las historias clnicas de un hospital son de


adolescentes y del grupo se eligen 5 al azar, existen una probabilidad de
0.3456 de que 3 de ellas sean de adolescentes.

2.2.2. Media y Desviacin Estndar de la Distribucin Binomial


La media y la desviacin estndar de una distribucin binomial pueden
obtenerse utilizando las dos frmulas siguientes:
Esperanza matemtica: = n.p Donde; : Esperanza matemtica
n : nmero de puntos muestrales
Varianza: 2x = n. p. q p: que indica xito
Desviacin Tpica: x = n. p. q q: (1 p): que indica fracaso

Ejemplo:Determinar la media y la desviacin estndar de la distribucin


binomial donde n = 20 y p =1/5. Recuerde que esta distribucin tiene o se
compone de un cuadro sus valores con sus respectivas probabilidades, en este
caso 21 valores y 21 probabilidades correspondientes.

Solucin: Ahora utilizando la frmula de la media y desviacin estndar de


esta distribucin son iguales a:

= n.p = (20)(1/5)= 4.0; es el valor medio de la variable aleatoria x.

4 5
x = n. p.q = (20) (1/5) (4/5) = 80/25 = = 1,79
5

x = 1.79 es la desviacin estndar de la variable aleatoria x. Adems como lo


dice en el enunciado, el dicho cuadro con sus 21 valores de x y sus 21
probabilidades correspondientes tienden a un decrecimiento en sus valores de
x.

3. DISTRIBUCIN NORMAL
La distribucin normal se presenta con un enfoque ms prctico
representndose con una grfica o Curva Normal o De Campana utilizando
una escala aproximada, como se indica en la figura siguiente:

En la siguiente figura se muestra la porcentaje-proporcin que estn


relacionados, por lo general se utiliza el porcentaje, por ejemplo en una
poblacin, con la posibilidad de que el evento que se estudia tome un valor
entre ciertos lmites

Una variable aleatoria tiene una distribucin normal general, si es continua, si


existen parmetros: (letra griega, miu) con un valor entre - y +, y
(letra griega, sigma) con valor mayor que cero; y si su funcin de densidad
f(x) es de la forma:

X -
2
1 e = 2,71828

f(x) = .e-
2p 2 2 p = 3,14159

La representacin grfica de esta expresin es una curva simtrica


respecto a la ordenada mxima.
Para indicar que una variable aleatoria sigue una distribucin normal, se
utiliza la notacin:
X N ( ,)
X =

PROPIEDADES DE LA DISTRIBUCIN NORMAL


1.- Tiene como parmetros a: y , N ( ,).
2.- La curva de la distribucin normal es asinttica, es decir, las colas de la
curva nunca llegan a tocar el eje de las abscisas.
3.- La distribucin normal es simtrica con respecto a la ordenada mxima,
siendo por lo tanto, las medidas de tendencia central iguales entre s, es decir,
X = Xd = Xo.
4.- Si X est normalmente distribuida con y , entonces, z = (X - )/,
estar tambin normalmente distribuida.

Esta transformacin de X a z (tipificacin o estandarizacin) tiene el


efecto de reducir X a unidades en trminos de desviacin tpica. Es decir,
dado un valor X, el correspondiente valor de z, nos dice en qu sentido y a
que distancia se encuentra X de su (media aritmtica) en trminos de
desviaciones tpicas.

Esta propiedad nos permite transformar el modelo normal general en el


modelo normal tipificado o estandarizado:

3.1. DISTRIBUCIN NORMAL TIPIFICADO ESTANDR


Se dice que una distribucin normal es de la forma estndar si su media
aritmtica es cero y su varianza es uno, y por lo tanto, su desviacin tpica es la
unidad. Para esta distribucin vamos a trabajar con el valor z, las medidas
estn asociadas a una variable x que esta determinada por su posicin relativa
con respecto a la media y la desviacin estndar de la distribucin, donde el
valor de z esta definido de la siguiente manera:

X-
Z=

El valor de z es considerado como una variable estandarizada ya que


sus unidades son desviaciones estndares, es decir que todas las
probabilidades estn asociadas a intervalos centrados en la media para los
valores especficos a el valor z, esto lo llamamos tambin representacin de la
probabilidad mediante un rea.
Donde el valor de z se representa en el intervalo;

P (- < z <+ ); o valor de esta en valores positivos y negativos,


y viene dada por:
1 z
f(z) = .e- ; la cual grficamente representa
2 2p 2
una curva simtrica con respecto a z =0.
F(z)

Z=0 a

Cuando los valores viene dados por la tabla de la distribucin normal, y con
valores o nmeros reales (positivos y negativos), para tipificar la
puntuacin, esto es, tomar en cuenta la simetra de f(z) con respecto a z,
se proporciona el clculo y su uso de la tabla de la distribucin normal,
como se sigue la frmula

a- b-
Z1 = ; Z2 = . En general

X-
Z=
x

Ejemplo: Al aplicar una encuesta de habilidades numricas al sector Los


Maguitos de la parroquia San Juan, se tom una muestra a 300 personas de
dicho sector, donde se obtuvo una distribucin normal con una = 36 puntos y
x = 5. Se desea saber:
a.- La amplitud intercuartil.
b.- Cul es la probabilidad de obtener una puntuacin igual o inferior a X=
32?
c.- Cuntas personas de la muestra tienen un puntaje igual o mayor que X
=34?

Solucin: Existen tres maneras de resolver este ejercicio:


1era manera:
1.- Para calcular la amplitud es necesario conocer los cuarteles primero y
tercero (Q1 y Q3). Esta amplitud es la diferencia de los dos cuarteles.
2.- Como la distribucin es normal, bastar con buscar cules son los puntos
de la distribucin que separan el 25% inferior a la media aritmtica y el 25%
superior. Para ello, obtenemos las puntuaciones z correspondiente.
3.- Una vez conseguidos los valores de z, buscamos en la tabla de reas bajo
la curva normal con los porcentajes anteriores, se despeja de la ecuacin de z,
la incgnita (X = puntuacin que corresponderan a los cuarteles Q 1 y Q2).
X 1 - 36 X 2 - 36
Z1 = = - 0,67 ; Z2 = = 0,67
5 5

25% 25%

Z1= -0,67 Z2= 0,67


X1 = Q1 = 5 (-0,67) + 36 = 32,65.
X2 = Q2 = 5 (0,67) + 36 = 39,35.

Se calcula la amplitud intercuartl: Q

Q = Q2 - Q1 = 39,35 32,65 = 6,7.

2da manera:
1.- La probabilidad de obtener una puntuacin igual o inferior a 32, es la
proporcin del rea de la curva normal existente por debajo de esa
puntuacin bruta o directa.
2.- Se tipifica la puntuacin:

X - 32 - 36
Z= = = - 0,80
X 5

3.-la puntuacin tipificada (z= -0,80) se busca en la tabla de reas bajo la curva
normal y corresponde a un 28,81%. Por lo tanto, por debajo de dicha
puntuacin se encontrar un (50 -28,81) =21,19%.

28,81 %

-0,80
3era manera:
1.- Como la distribucin es normal, los alumnos que tengan una puntuacin
igual o mayor que 34, corresponder al porcentaje de la curva normal que
supere esa puntuacin.
2.- Se obtiene la puntuacin tpica:

X - 34 - 36
Z= = = - 0 ,40
X 5

5,54% 50%

65,54%

Z = -0,40

3.- Se busca en la tabla de reas para la curva normal, el valor (z= -0,40),
obtenindose un porcentaje igual a 15,54%.
4.- Como z= -0,40, es negativa, el porcentaje de alumnos, ubicados por encima
de esa puntuacin, ser (15,54% + 50) = 65,54%.
5.-Si la muestra tiene 3000 alumnos, la cantidad de los que le superen esa
puntuacin (X= 34), es el 65,54% de 300, es decir (300)(65,54)/100 = 197
alumnos.

NORMALIZACIN
Escala T: Los puntajes obtenidos en una distribucin cualquiera pueden
llevarse a puntos equivalentes dentro de una distribucin normal.
Los puntajes T son puntajes estndar normalizados, convertidos en una
distribucin cuya media aritmtica es 50 y alejndose en -5 de la media, le
corresponde 0, mientras que el se aleja 5 de la media, tiene 100 puntos. Para
obtener un puntaje T, se utiliza la siguiente frmula:

T = 50 + 10 .z

Ejemplo: Transformar las puntuaciones de la prueba de Biologa de UBV, a la


escala de veinte valores, utilizando la escala T.
Solucin:
1.-Se obtienen las frecuencias ajustadas con la siguiente ecuacin:

F ajustada = F inferior = . f

Es decir, para calcular la frecuencia ajustada de una determinada casilla o


intervalo de clase en una distribucin de frecuencias, se le suma a la frecuencia
acumulada inferior, la mitad de la frecuencia absoluta ordinaria de la casilla con
que se est trabajando, as:

Para el intervalo 10: (72 - 76) 3 50


9: (67 - 71) 7 47
F ajustada = 47 +1/2 . 3 = 47 + 1,5 = 48,5

Para el intervalo 9: (67 71) 7 47


8: (62 66) 1 40
F ajustada = 40 + (7/2) = 40 + 3,5 = 43,5

2.- Se obtienen los porcentajes acumulado (P) de esas frecuencias ajustadas


(F ajustada), en base a la mayor frecuencia acumulada (no ajustada), mediante
la frmula:

F ajust.
P acumulada = F mx. no ajust. . 100

Para el intervalo 10: (72 76 3 50)

48,5
P acum. 10 = .100 = 97
50

3.- Se obtiene en la curva normal el puntaje tpico que corresponde a cada uno
de os porcentajes obtenidos. Z = 1,88.

4.-Se obtienen los puntajes normalizados T, mediante la ecuacin:


T = 50 + 10 . z
Para el intervalo 10: T = 50 + 10(1,88) = 68,8 = 69
Para el intervalo 9: T = 50 + 10 (1,13) = 63.

97% 47%
2 = 1,88

5.- Los puntajes T, pueden ser convertidos a nuestra escala tradicional de


veinte valores mediante la relacin:

E1 . 20 = (T/ Tmx) . 20

Tabla de operaciones

N Xi - X s f F F ajust. P z T E1 . 20
10 72 3 50 48,5 97 1,88 69 20
76
9 67 7 47 43,5 87 1,13 63 18
71
8 62 1 40 39,5 79 0,81 58 17
66
7 57 9 39 34,5 69 0,50 55 16
61
6 52 2 30 29 58 0,20 52 15
56
5 47 5 28 25,5 51 0,02 50 14
51
4 42 4 23 21 42 - 0,20 48 14
46
3 37 4 19 17 34 - 0,41 46 13
41
2 32 6 15 12 24 - 0,71 43 12
36
1 27 9 9 4,5 9 - 1,34 37 11
31
50

1.11. ACTIVIDADES
Individual

- Lea con cuidado los contenidos presentados en este modulo y consulte la


bibliografa a fin de ampliar sus conocimientos y considerar la opinin de otros
autores sobre el tema.

Grupal Cooperativa
- Los empleados de una universidad fueron clasificados de acuerdo con su
edad y adscripcin a la administracin, cuerpo docente o personal de apoyo.

grupo
de
Clasificacin/ 51 o TOTAL
20 30 31 40 41 50
edad mayor
Administracin 2 24 16 17 59
Cuerpo Docente 1 40 36 28 105
Personal de 52
16 20 14 2
Apoyo
TOTAL 19 84 66 47 216

Considerando que se selecciona un empleado en forma aleatoria, obtenga la


probabilidad de que el elegido:
a.- est en la administracin o tenga 51 aos o ms.
b.- no sea miembro del cuerpo docente.
c.- sea miembro del cuerpo docente dado que el individuo tiene 41 aos o ms.

- Suponga que cierta caracterstica oftlmica est asociada al color de los ojos.
Se estudiaron 3000 personas seleccionadas aleatoriamente con los siguientes
resultados:

caractersticas \ color de los


Azul Caf Otro TOTAL
ojos
Si 70 30 20 120
No 20 110 50 180
TOTAL 90 140 70 300

a.-Cul es la probabilidad de que una persona seleccionada al azar tenga los


ojos azules?
b.- Cul es la probabilidad de que una persona seleccionada al azar si tenga
la caracterstica?
c.-Son independientes los eventos A (tiene los ojos azules) y B (tiene la
caracterstica)? Justifique la respuesta.
d.- Cmo estn relacionados los eventos A (tiene ojos azules) y C (tiene ojos
cafs) (independientes, mutuamente excluyentes)? Explique por qu cada
trmino puede ser aplicado o no.

- Los pesos de sandas maduras cultivadas en una granja estn distribuidos


normalmente con una desviacin estndar de 2.8 Kgrs. Obtenga el peso medio
de las sanda maduras si slo 3% pesa menos de 15 Kgrs.

- Se supone que un medicamento nuevo es 85% efectivo en el tratamiento de


cierta enfermedad. (Es decir, el 85% de los pacientes con esta enfermedad
responden favorablemente al medicamento). Sea z el nmero de pacientes de
cada grupo de 50 que responden favorablemente. Utilice el mtodo de
aproximacin normal para evaluar las siguientes probabilidades;
a.- P(x > 45) b.- P (40< x < 50) c.- P(x < 35)

- Una escuela primaria ha programado cuatro fechas de reunin al ao con los


padres de familia. Los registros de la escuela indican que la probabilidad de
que los padres de un nio (uno o ambos) asistan desde 0 hasta 4 de las
reuniones son las indicadas en el cuadro siguiente:

Nmero de Reuniones a 0 1 2 3 4
las que asisten (x)
Probabilidad 0.12 0.38 0.30 0.12 0.08

a.- Es sta una distribucin de probabilidades? Explique.


b.- Cul es la probabilidad de que los padres de un nio en particular asistan
al menos a una de esas reuniones?
c.- Calcule la media y la desviacin estndar para esta distribucin.
- Se ha aplicado una prueba de aptitudes sensoriales a 200 alumnos de un
Liceo Capitalino, obtenindose una media aritmtica de 20 y una desviacin
tpica de 5. Suponiendo normalidad:
a)Cul es la probabilidad de obtener una puntuacin mayor que 15 y menor
que 18?
b)Cul es la puntuacin bruta que supera el 15% superior de la distribucin?

BIBLIOGRAFA BSICA

Macchi, R.L. 2001. Introduccin a la Estadstica en Ciencias de la Salud.


Editorial Mdica Panamericana. Argentina.
Milton, J.S. y Tsocos, J.O. 1991. Estadstica para Biologa y Ciencias de
la Salud. McGraw-Hill, Inc.
Puertas L., E.; Urbina, J.; Blanck, M.E.; Granadillo, D.; Blanchard, M.;
Garca, J.A.; Vargas V.; P. & Chiquito, A. 1998. Bioestadstica,
Herramienta de la Investigacin. Ediciones del Consejo de Desarrollo
Cientfico, Humanstico y Tecnolgico de la Universidad de Carabobo,
Venezuela.
SALAMA, D. 1987. Estadstica: Metodologa y aplicaciones. Editora
Principios, Caracas, Venezuela. 308 p.
SEGNINI, S. 2003. Apuntes de Estadstica para Bilogos. Direccin de
Publicaciones ULA, Mrida, Venezuela.
Spiegel, M.R. y Stephens, L.J. 2002. Estadstica. Serie Schaum. 3era
edicin. McGraw-Hill, Inc.
COMPLEMENTARIA

Sokal, R.R. y Rohlf, F.J. 1995. Biometry, the principles and practice of
statistics in biological research. 3era edicin. W.H. Freeman and
Company. USA.

PGINAS WEB

http://www.hrc.es/bioest/M_docente.html

http://www.e-
biometria.com/ebiometria/conceptos_basicos/estimacion_estadistica.htm

Dr. Hossein Arsham


http://home.ubalt.edu/ntsbarsh/Business-stat/opre504S.htm#rqualestiunbsuff

CAPITULO II: PRUEBA DE HIPTESIS E INTERVALOS DE


CONFIANZA

TEMA 4. ERROR ESTNDAR

Competencias:
Conoce la medida en la que se alejan los datos de la media poblacional,
es decir, la diferencia entre el valor estimado y el valor real.

Contenidos:
Introduccin a la Estadstica Inferencial.
Definicin y clculos del error estndar.
Usos del error estndar.
Tamao muestral.

Introduccin a la Estadstica Inferencial

En este captulo trabajaremos con las tcnicas de la Estadstica


Inferencial, a travs de las cuales se busca llegar a conclusiones valederas
sobre poblaciones, tomando como base la informacin obtenida en una
muestra. La nica forma de conocer la informacin exacta sera realizando
todas las observaciones posibles de todo el universo, lo cual suele ser difcil y
poco prctico en funcin del costo y del tiempo. De all surge la inferencia
estadstica la cual permite asumir o estimar las caractersticas de la poblacin a
partir de las muestras.

Los dos tipos de problemas que resuelven las tcnicas estadsticas son:
estimacin y contraste de hiptesis. En ambos casos se trata de generalizar la
informacin obtenida en una muestra a una poblacin. Estas tcnicas exigen
que la muestra sea aleatoria. En la prctica rara vez se dispone de muestras
aleatorias, por la tanto la situacin habitual es la que se esquematiza en la
Figura 1.

Figura 1. Diferenciacin entre la poblacin y la muestra.

Entre la muestra con la que se trabaja y la poblacin de inters, o


poblacin diana, aparece la denominada poblacin de muestreo: poblacin (la
mayor parte de las veces no definida con precisin) de la cual nuestra muestra
es una muestra aleatoria. En consecuencia, la generalizacin est amenazada
por dos posibles tipos de errores: error aleatorio que es el que las tcnicas
estadsticas permiten cuantificar y crticamente dependiente del tamao
muestral, pero tambin de la variabilidad de la variable a estudiar y el error
sistemtico que tiene que ver con la diferencia entre la poblacin de muestreo y
la poblacin diana y que slo puede ser controlado por el diseo del estudio.

Cabe recordar que la informacin de las muestras se trabaja a partir de


estadsticos. Un estadstico es una variable aleatoria cuyos valores pueden ser
determinados a partir de la observacin de una muestra aleatoria. Este muestra
una distribucin de probabilidades propias, la cual es conocida como
distribucin muestral de un estadstico. As puede tenerse una distribucin
muestral de medias, cuando el estadstico es la media aritmtica; distribucin
muestral de proporciones, cuando el estadstico es una proporcin o
porcentaje, y as sucesivamente.

Las medidas obtenidas en una muestra (estadsticos) frecuentemente


son diferentes al parmetro de la poblacin. A la diferencia de estas dos
medidas se les denomina error. Determinar el tamao de ese error slo sera
posible si se conociera el parmetro de la poblacin, pero este por lo general
se desconoce.

Sin embargo, el error es posible estimarlo siguiendo un modelo


estadstico. En el caso que el estadstico sea la media aritmtica tenemos:
Xi = + Ei
Xi : es el valor de la variable.
: es la media poblacional.
Ei : es el error.

Se pueden graficar las frecuencias de Ei, cuya distribucin de


frecuencias se comporta como una distribucin normal, con media cero y
varianza s2 o 2. Los errores pueden ocurrir por exceso o por defecto, lo que
significa que Ei tendr valores positivos y negativos. Cuando se estudia un gran
nmero de valores de Ei, el promedio de ellos es cero.

En una distribucin de frecuencias la medida de dispersin es la


desviacin estndar, y en la distribucin muestral es el error estndar, el cual
no es ms que el promedio de los errores muestrales. Ello significa que las
distintas medias de la distribucin muestral contienen una fraccin de error en
sus estimaciones con respecto a la media poblacional.

Todo estadstico de una variable continua tiene una distribucin


muestral, donde:
1. La media de las medias de las muestras es igual a la media de la
poblacin.
2. La varianza de las medias de las muestras es igual a la varianza de
la poblacin, dividida entre el tamao de las muestras (n).
3. La distribucin de las medias muestrales tiene forma de curva
normal.
Definicin y Clculo del Error Estndar

El error estndar puede definirse como la diferencia que existe entre el


valor estimado en la muestra (estadstico) y el verdadero valor representativo
de la poblacin (parmetro), por lo tanto, mientras menor sea el error estndar
mayor ser la aproximacin del estadstico al parmetro.

Al error estndar tambin se le conoce como error por muestreo o error


tpico, y puede indicarse que la magnitud del error es directamente proporcional
a la dispersin de la poblacin de origen de la muestra e inversamente
proporcional al tamao de sta. Mientras mayor sea la muestra, menor es la
magnitud del error estndar.

Clculo del error estndar

Dado que el error estndar es una desviacin estndar en una


distribucin muestral, este representa una medida de la dispersin de la
distribucin de los valores de las medias de muestras tomadas de una
poblacin, de la misma manera que la desviacin estndar lo es para la
dispersin de los datos originales.
Para calcular el error estndar de la media se utiliza la formula:
s
Sx =
n
Donde s: desviacin estndar de la muestra
n: tamao de la muestra
Sx : error estndar
Para calcular el error estndar de una proporcin o porcentaje:
pxq
Sp =
n
Donde p: porcentaje de sujetos con la caracterstica de estudio.
q: (100-p) porcentaje de sujetos sin la caracterstica de estudio.
n: tamao de la muestra

Obsrvese que hay dos situaciones en las que la posibilidad de error es


nula (error estndar igual a cero):
Una de ellas se produce cuando en la poblacin original no hay
dispersin, es decir que todos sus datos son iguales. Al ser el
numerador cero, el cociente es cero.
La segunda se verifica cuando la muestra tomada es infinitamente
grande, o cuando se evala la totalidad de la poblacin, en este
caso el denominador es infinito y el resultado de dividir cualquier
valor por infinito es cero.

En la realidad de la investigacin es poco probable que se den estas dos


situaciones, ya que en los datos numricos es casi imposible evitar la
dispersin, porque no todos los individuos de una poblacin se comportan
exactamente igual o porque es casi imposible no cometer algn error en la
recoleccin de datos. Por otro lado, las poblaciones de inters son de tamao
demasiado grande como para que sea posible trabajar con todos sus
integrantes.
En este sentido, puede indicarse que de todas las muestras tomadas en
forma aleatoria a partir de una poblacin:
a) Alrededor del 68 % tiene valores de media aritmtica entre 1 x
b) Cerca del 95 % tiene valores de media aritmtica entre 2 x
c) Alrededor del 99 % tiene valores de media aritmtica entre 2,5 x

De la misma forma puede indicarse que al tomar una muestra al azar:


a) Es poco probable (p < 0,05) que su media aritmtica est alejada
de la media de la poblacin ms de dos errores estndar.
b) Es muy poco probable (p < 0,01) que su media aritmtica est
alejada de la media de la poblacin ms de dos y medio errores
estndar.

Ejemplo 4-1. Si de una poblacin con = 1000 y = 40, se toman muestras


con n = 25 y puede esperarse que el 95 % de ellas tenga valores para su
estadstico media aritmtica entre 984 y 1016. Esto es as porque el error
estndar en esta situacin es 8 (40 dividido entre 25 ) y dos veces 8 es
16.

40 40
Sx = = =8 2 Sx = 2 x 8 = 16
25 5

+ 2 Sx = 1000 + 16 = 1016

- 2 Sx = 1000 - 16 = 984

Muestras con datos nominales

Al tomar muestras de poblaciones de datos nominales la situacin es


equivalente a la descrita para los datos numricos. Sigamos un ejemplo.

Ejemplo 4-2. Considrese una poblacin hipottica de 8 individuos, de los


cuales 4 (p = 0,5 o 50%) estn en la categora enfermos. Los resultados
posibles al tomar muestras de tamao 4 (n = 4) se muestran en la Tabla 1
(Macchi, 2001). Al estimar el parmetro con el valor del estadstico a veces se
acierta y a veces se sobrestima o subestima, pero en promedio se estima
bien.
Tambin en este caso la magnitud del error posible en la estimacin es
inversamente proporcional al tamao de la muestra, a mayor tamao de la
muestra menor error posible.
La diferencia estriba en que la distribucin en este caso no es normal
sino binomial y el valor del error estndar es la raz cuadrada del valor obtenido
de:

p (1 p ) / n

Esto es la raz cuadrada del resultado del producto de la proporcin en


una categora (0,5 en la categora enfermos en el ejemplo) por la que no est
en la categora ([1 p] = 0,5 en el ejemplo) dividido por el tamao de la
muestra (4 en el ejemplo).
0,5 (0,5) 0 ,25
Sx = = = 0 ,0625 = 0 ,25
4 4

Tabla 1. Resultados en las muestras tomadas de una poblacin hipottica.


Poblacin: enfermos: 4 sanos: 4 p = 0,5 50%
MUESTRA % ENFERMOS
A
4 enfermos 100,0
0 sanos
B
3 enfermos 75,0
1 sano
C
2 enfermos 50,0
2 sanos
D
1 enfermo 25,0
3 sanos
E
0 enfermo 0,0
4 sanos
Suma 250,0
% promedio 50,0

Usos del error estndar

En funcin del error estndar y de las propiedades de la distribucin


muestral, es posible:
a) Estimar los valores representativos de una poblacin.
b) Tomar decisiones en funcin de pruebas de hiptesis.
c) Calcular el tamao de una muestra, cuando se espera una
determinada precisin del estadstico y el parmetro.

Ejemplo 4-3. En una poblacin de adultos sin manifestaciones de presencia de


clculos sobre sus superficies dentales, el contenido de calcio en saliva tiene
un valor de media aritmtica de 5,6mg/100ml con una desviacin estndar de
0,9 mg/100ml.
a) Es poco probable (p > 0,05) o no que la media aritmtica de
una muestra de tamao 100 tenga un valor de 5,3 mg/100ml? Es poco
probable, ya que este valor est alejado de la media de la poblacin, 0,30
ms de dos errores estndar. El error estndar de este caso es 0,09 (0,9/
100 ) que multiplicado por dos es 0,18.

= 5,6mg/100ml
= 0,9 mg/100ml
n = 100
s 0,9 0 ,9
Sx = Sx = = = 0 ,09
n 100 10

2 Sx = 2 x 0,09 = 0,18

- 2 Sx = 5,6 mg/100ml - 0,18 mg/100ml = 5,42 mg/100ml


Es poco probable. 5,42 > 5,3

b) Y si la muestra hubiera tenido un tamao igual a 20? El valor


obtenido no sera poco probable, ya que en este caso el error estndar es
de 0,20 y (0,9/ 100 ) multiplicado por 2 es 0,40, valor menor que 0,30.

S n = 20

0,9 0,9
Sx = = = 0,20
20 4,47

2 Sx = 2 x 0,20 = 0,40

- 2 Sx = 5,6 mg/100ml - 0,4 mg/100ml = 5,2 mg/100ml

Es probable. 5,2 < 5,3

Ejemplo 4-4. En una poblacin de adultos jvenes la estatura media (media


aritmtica) es de 1,70 m y la desviacin estndar 0,24 m. Menor o mayor
de qu valor debe ser la media aritmtica de una muestra de tamao 64,
tomada de esa poblacin para poder considerar que se est frente a una
situacin poco probable (p > 0,05)? El error estndar de la distribucin de
las medias de las muestras de ese tamao tomadas de esa poblacin es
de 0,03 (0,24 / 64 ). Los valores 1,64 y 1,76 estn dos errores estndar
alejados de la media. Por lo tanto, cuando la media de la muestra obtenida
sea menor o mayor, respectivamente, que esos dos valores, se estar
frente a una situacin poco probable.

= 1,70 m
0,24 0 ,24
= 0,24 m Sx = = = 0 ,03
64 8
n = 64
2 Sx = 2 x 0,03 = 0,06

2 Sx : + 2 Sx = 1,70 m + 0,06 m = 1,76 m

- 2 Sx = 1,70 m - 0,06 m = 1,64 m

Tamao muestral

El tamao muestral juega el mismo papel en estadstica que el aumento


de la lente en microscopa: si no se ve una bacteria al microscopio, puede
ocurrir que:
- la preparacin no la contenga
- el aumento de la lente sea insuficiente.

Para decidir el aumento adecuado hay que tener una idea del tamao
del objeto. Del mismo modo, para decidir el tamao muestral:
i) en un problema de estimacin hay que tener una idea de la magnitud a
estimar y del error aceptable.
ii) en un contraste de hiptesis hay que saber el tamao del efecto que
se quiere ver.

Generalmente, se considera que el tamao de la muestra debe estar en


funcin del tamao de la poblacin, y se dice que debe ser proporcional a este.
Sin embargo, cuando la poblacin es muy extensa, no es indispensable que la
muestra sea tan numerosa; es cuestin de determinar la cantidad apropiada, a
fin de que el error muestral no afecte los resultados, y su vez no se derrochen
recursos, al utilizar una muestra de mayor tamao que la requerida.

Existen frmulas que permiten calcular el tamao adecuado de una


muestra cuando se espera una determinada precisin en los resultados. Las
frmulas a utilizar dependen de la informacin disponible (Puertas y col., 1998).

1) Cuando se conoce el tamao de la poblacin (N), se puede aplicar la


siguiente frmula:

N
n= 2
1 ( N P )

donde, n : tamao de la muestra


N : nmero total de sujetos u objetos en la poblacin o tamao de
la poblacin
P : precisin (error mximo permitido entre el parmetro y el
estadstico), expresado en proporcin.

2) Cuando se quiere estimar el promedio de una poblacin y se conoce la


desviacin estndar de la poblacin:
2 2
Z s
n= 2
P

donde, n : tamao de la muestra


Z : 1,96 constante. Expresa el nivel de confianza
s : desviacin estndar (conocida o estimada) de la poblacin
P : precisin
3) Cuando se conoce la proporcin o porcentaje la poblacin que tiene la
caracterstica de inters:
pq 2
n= 2
Z
P
donde, n : tamao de la muestra
Z : 1,96 constante. Expresa el nivel de confianza
p : porcentaje de la poblacin que tiene la caracterstica de inters
q : porcentaje de la poblacin que NO tiene la caracterstica de
inters
(q = 1 p)
P : precisin
Ejemplo 4-5. Se desea conocer las condiciones de las familias afectadas
directamente por la inundacin del Ro Pao al Sur del Estado Anzotegui. Se
estima que el rea de la cuenca afectada por la inundacin abarca 20.000
familias. Se decide tomar una muestra en la cual el error mximo permitido en
los resultados no sea mayor de un 5%. Cuntas familias deben incluirse en la
muestra?

N = 20.000 familias
P = 5% (0,05 expresado en proporcin)

N 20000
n=
1 ( N P )
2
=

1 20000 0,05 2
= 392,5
Por lo tanto, la muestra requerida debe ser de 393 familias.

Ejemplo 4-6. Un investigador necesita conocer el valor promedio de plomo en


sangre venosa de los pacientes que asisten al hospital donde el trabaja en el
centro de Caracas. En la literatura revisada encuentra que el valor promedio de
plomo en sangre es de 0,83 mg/100ml, con una desviacin estndar de 0,05
mg/100ml, determinado con un mtodo distinto al que l utilizar. Est
dispuesto a tolerar 0,02 mg/100ml como error mximo entre el valor del
universo y la muestra. Cuntos pacientes deben conformar la muestra?

s = 0,05 mg/100ml
P = 0,02 mg/100ml
Z = 1,96
2 2 2 2
Z s 1,96 0 ,05
n= 2
= 2
= 24,01
P 0 ,02

La muestra debe estar conformada por 24 pacientes.

Ejemplo 4-7. Se desea realizar una investigacin sobre el desarrollo de


enfermedades respiratorias en una poblacin cercana al botadero de basura La
Bonanza (va los Valles del Tuy, Edo. Miranda), en la que anteriormente se ha
estimado la que el 20% de la poblacin presenta este tipo de sntomas. Se
desea saber cuntas familias deben constituir la muestra, s el ndice buscado
vara en ms de un 6% con respecto al universo.
p = 20%
q = (100 - 20) = 80%
P = 6%
Z = 1,96
pq 2 20 80 2
n= 2
Z = 2
1,96 = 170 ,73
P 6

La muestra debe estar conformada por 171 familias.

ACTIVIDADES
GRUPALES
1. Dado que el error estndar muestra la desviacin estndar de la
distribucin muestral de cualquier estadstico, investigue como se puede
calcular el error estndar para otros estadsticos, como la mediana,
desviacin estndar, varianza y coeficiente de variacin.

INDIVIDUALES
1. Una poblacin consiste en cinco nmeros 2, 3, 6, 8 y 11. Considere
todas las muestras de tamao igual a 2 que pueden obtenerse, con
reemplazamiento, a partir de esta poblacin. Calcule a) la media de la
poblacin, b) la desviacin estndar de la poblacin, c) la media de la
distribucin muestral de medias y d) la desviacin estndar de la
distribucin muestral de medias (es decir, el error estndar de las
medias).
2. Resuelva el problema anterior, pero considerando que el muestreo es
sin reemplazamiento.
3. Suponga que el peso de 3000 estudiantes universitarios varones se
distribuye normalmente, con una media de 68,0 Kg y una desviacin
estndar de 3,0 Kg. Si se obtienen 80 muestras de 25 estudiantes cada
una; cules seran la media y la desviacin estndar esperadas de la
distribucin muestral de medias resultante s los muestreos se hubieran
hecho a) con reemplazamiento y b) sin reemplazamiento.
4. En la comunidad de Guaraunos Estado Sucre, se han presentado un
gran nmero de casos de malaria. Determine cuntas personas debe
estudiar un investigador, para demostrar la existencia de una endemia,
cuando se ha estimado en trabajos anteriores, que la prevalencia de la
enfermedad es del 10%. Espera que los resultados obtenidos en la
muestra no varen en ms de un 2% con respecto a los valores reales de
la poblacin.
5. Se ha encontrado que el valor promedio de mercurio en msculo liso de
peces de reas cercanas a la Refinera El Palito (Estado Carabobo) es
de 0,9 g/100g con una desviacin estndar de 0,01 g/100g. Se desea
realizar una investigacin en la cual la muestra d una media de
mercurio no mayor del valor real en ms de 0,005 g/100ml. Cuntos
peces deben incluirse en la muestra?
6. En una comunidad constituida por 1146 familias se desea realizar un
diagnstico socioambiental, para lo cual se tomar una muestra
representativa que admita un error mximo de 5%. Cuntas familias
deben constituir la muestra?

BIBLIOGRAFA BSICA

Macchi, R.L. 2001. Introduccin a la Estadstica en Ciencias de la Salud.


Editorial Mdica Panamericana. Argentina.
Milton, J.S. y Tsocos, J.O. 1991. Estadstica para Biologa y Ciencias de
la Salud. McGraw-Hill, Inc.
Puertas L., E.; Urbina, J.; Blanck, M.E.; Granadillo, D.; Blanchard, M.;
Garca, J.A.; Vargas V.; P. & Chiquito, A. 1998. Bioestadstica,
Herramienta de la Investigacin. Ediciones del Consejo de Desarrollo
Cientfico, Humanstico y Tecnolgico de la Universidad de Carabobo,
Venezuela.
SALAMA, D. 1987. Estadstica: Metodologa y aplicaciones. Editora
Principios, Caracas, Venezuela. 308 p.
SEGNINI, S. 2003. Apuntes de Estadstica para Bilogos. Direccin de
Publicaciones ULA, Mrida, Venezuela.
Spiegel, M.R. y Stephens, L.J. 2002. Estadstica. Serie Schaum. 3era
edicin. McGraw-Hill, Inc.

COMPLEMENTARIA

Sokal, R.R. y Rohlf, F.J. 1995. Biometry, the principles and practice of
statistics in biological research. 3era edicin. W.H. Freeman and
Company. USA.

PGINAS WEB

http://www.hrc.es/bioest/M_docente.html

http://www.e-
biometria.com/ebiometria/conceptos_basicos/estimacion_estadistica.htm

Dr. Hossein Arsham


http://home.ubalt.edu/ntsbarsh/Business-stat/opre504S.htm#rqualestiunbsuff

TEMA 5 ESTIMACIN

Competencias:
Infiere las caractersticas de la poblacin a partir de las caractersticas
de la muestra.
Contenidos:
Definicin de estimacin, estadstico, parmetro, sesgo, estimacin por
puntos, intervalos de confianza, teorema del lmite central.

La Estimacin

Como vimos en el tema anterior, la inferencia estadstica permite hacer


generalizaciones hacia la poblacin a partir de la informacin obtenida en una
muestra. En este sentido, mediante la induccin es posible obtener un valor
representativo de la poblacin, el cual se conoce con el nombre de estimador.
Los resultados de un estimador pueden ser expresados como un simple
valor; entendido como una estimacin en un punto, o un rango de valores,
referido como un intervalo de confianza. Siempre que utilicemos la valoracin
de un punto, calculamos el margen de error asociado a la estimacin de ese
punto.

El estimador usual de la media poblacional es = xi / n, donde n es el


tamao de la muestra y x1, x2, x3,.......,xn son los valores de la muestra. Si el
valor del estimador en una muestra particular es 5, entonces 5 es la estimacin
del de la media de la poblacin.

Sin embargo, al proceder de esta manera no es posible tener mucha


confianza en la estimacin realizada. Puede haberse tenido la suerte
suficiente como para extraer de la poblacin un subconjunto de sus integrantes
(muestra) en el que se manifieste esa situacin. A menos que en la poblacin
no haya dispersin o la muestra haya sido infinitamente grande, tambin puede
haberse tenido mala suerte de que esos estadsticos sobrestimen o
subestimen los parmetros de la poblacin.

La situacin podra asemejarse a la confianza que se puede tener de


ganar un sorteo mediante la adquisicin de uno de entre todos los nmeros
que se sortearn. S estos son 100 y tenemos en nuestro poder uno,
podramos indicar que tenemos una confianza de uno en cien (0,01 o 1%) de
ganar el premio. S se consiguen dos o ms esos nmeros podemos duplicar o
aumentar nuestra confianza, aunque para transformar esa confianza en
seguridad de ganar sera necesario disponer de la totalidad de los nmeros.

La estimacin es un proceso mediante el cual, en una muestra se


obtiene un determinado valor, denominado estadstico, para luego, en funcin
de l, calcular (estimar) su valor en la poblacin correspondiente. Recordemos
que este valor poblacional recibe el nombre de parmetro.

Un estimador es cualquier cantidad calculada de los datos de la muestra


los cuales se utilizan para obtener informacin sobre una cantidad desconocida
de la poblacin. Por ejemplo, la media muestral es un estimador de la media
poblacional.

Cualidades de un buen Estimador


Para que resulte de mayor utilidad un buen estimador debe tener:
imparcialidad, consistencia, ausencia de sesgo y eficiencia.
1. Imparcialidad: Una estimacin es imparcial con respecto a un
parmetro cuando el valor esperado del estimador puede ser expresado
igual al parmetro que ha sido estimado. Por ejemplo, la media de una
muestra es una estimacin imparcial de la media de la poblacin de la
cual la muestra fue obtenida. La imparcialidad es una buena cualidad
para una estimacin, puesto que, usando el promedio ponderado de
varias estimaciones se obtendra una mejor estimacin que de cada una
de ellas por separado. Por lo tanto, la imparcialidad permite que
actualicemos nuestras estimaciones. Por ejemplo, si sus estimaciones
de la medias poblacional son, digamos 10, y 11,2 con respecto a dos
muestras independientes de tamaos 20, y 30 respectivamente, la mejor
estimacin de la media poblacional basada en ambas muestras es [ 20
(10) + 30 (11,2) ] (20 + 30) = 10,75.

2. Ausencia de sesgo: Se dice que un estimador es insesgado si la media


de la distribucin de medias de las muestras, es igual al valor del
parmetro estimado. La media X es un estimador insesgado de .

3. Consistencia: como estudiamos en el tema anterior, la desviacin


estndar de una estimacin es llamada el error estndar de esa
estimacin. Mientras mas grande es el error estndar existir ms error
en su estimacin. La desviacin estndar de una estimacin es un ndice
comnmente usado del error exigido al estimar un parmetro de la
poblacin basado en la informacin en una muestra de tamao n
escogida al azar de la poblacin entera. Un estimador debe ser
consistente si al aumentar el tamao de la muestra se produce una
estimacin con un error estndar ms pequeo. Por lo tanto, su
estimacin es consistente con el tamao de la muestra. Es decir,
realizando un esfuerzo mayor, se obtiene una muestra ms grande que
produce una mejor estimacin. Un estimador consistente es aquel que
tiende aproximarse al valor del parmetro de la poblacin, en la medida
que el tamao de la muestra crece.

4. Eficiencia: Se refiere a la precisin con la cual tales medidas pueden


estimar un parmetro. Una estimacin eficiente es la que tiene el error
estndar ms pequeo entre todos los estimadores imparciales. El
mejor estimador es el que est ms cercano al parmetro de la
poblacin que es estimado, aquel que tenga menor error estndar.
Figura 2. El Concepto de eficiencia para un estimador.

En la Figura 2 se ilustra el concepto de la proximidad por medias que


tienen como objetivo el centro para la imparcialidad con varianza mnima. Cada
tablero de dardos tiene varias muestras:

El primero tiene todos los tiros agrupados firmemente juntos, pero


ningunos de ellos golpean el centro. El segundo tiene una extensin mas
grande, pero alrededor del centro. El tercero es peor que los primeros dos. Slo
el ltimo tiene un grupo apretado alrededor del centro, por lo tanto tiene buena
eficiencia.

Si un estimador es imparcial, entonces su variabilidad determinar su


confiabilidad. Si un perito es extremadamente variable, las estimaciones que
produce pueden en promedio no estar tan cerca del parmetro poblacional
como lo estara un estimador parcializado con varianza ms pequea.

Estimacin de parmetros.
La estimacin de parmetros puede efectuarse por puntos o por
intervalos. La estimacin por puntos plantea un solo valor numrico como
parmetro de la poblacin, estimado a partir de una muestra.

Es probable que al considerar un solo punto como estimador de un


parmetro se cometa un error, ya que la muestra no es ms que una pequea
parte de un conjunto mucho ms grande, por lo tanto es aventurado afirmar
que el valor correspondiente a la poblacin sea el mismo valor calculado para
la muestra. Pero si el nmero de observaciones es suficientemente grande, se
obtendr una medida muy similar a la del parmetro. Sin embargo, con
frecuencia hay limitaciones en cuanto a recurso y tiempo, por lo cual es
necesario decidir slo sobre la base de algunas observaciones, y determinar
cuanta probabilidad existe que el valor estimado en la muestra coincida con el
valor del parmetro. En este caso, no se estar utilizando el mtodo de
estimacin puntual sino de intervalo.

Al considerar un estimador de un parmetro poblacional , la


realizacin de una muestra aleatoria de tamao n, X1, X2,..., Xn; suministra n
datos, valores u observaciones, x1, x2,..., xn, que determinan una estimacin
puntual del parmetro desconocido:

Si pretendemos, por ejemplo, estimar puntualmente el valor medio con


el estimador media muestral, extraeremos una muestra de la poblacin,
observaremos el valor de la variable en los n individuos de la muestra. En tal
caso, los n datos obtenidos x1, x2,..., xn, permiten calcular lo deseado:

La estimacin por intervalos consiste en estimar dos valores numricos


extremos, los cuales permiten construir un intervalo, entre cuyos lmites se
considera est incluido el parmetro a estimar, segn el nivel de confianza o de
acierto, previamente establecido por el experimentador.

La estimacin por intervalos de un parmetro consiste en la


determinacin de un intervalo, que contendr el parmetro con una confianza
1- , nmero entre 0 y 1, fijado por el experimentador. Para ello se requerir lo
siguiente:

Una muestra aleatoria X1, X2,..., Xn de tamao n extrada de la poblacin


X.
Un estimador del parmetro poblacional , con distribucin o ley de
probabilidad conocida.
El nivel de confianza 1- , establecido a priori por el experimentador (los
usuales son 0.95, 0.90 y 0.99).

Una estimacin de intervalo de un parmetro, es un segmento en el


continuo de la escala de nmeros, donde en algn punto del cual se supone se
encuentra el valor del parmetro considerado. Esto significa que en lugar de
tener un solo punto como estimacin de un parmetro, se tiene ahora todo un
conjunto de puntos adyacentes, esto es, un intervalo entre cuyos puntos,
probablemente alguno coincida con el valor del parmetro, con nivel de
probabilidades de acierto conocido. Fijando de esta manera lo que se
denomina un intervalo de confianza; el cual se obtienen mediante la formula:

Estimador (valor crtico x error estndar)

Ese intervalo numrico se calcula de tal forma que el investigador puede


tener una confianza determinada, aunque no la seguridad de que el valor
buscado se encuentra dentro de l.

Estimacin de la media de la poblacin

Para estimar este parmetro se requiere conocer la media


aritmtica de la muestra, as como su desviacin estndar y fijar el nivel de
confianza, el cual indica la probabilidad de que el valor del parmetro se
encuentre dentro de los lmites del intervalo establecido. La expresin
matemtica queda de la siguiente manera:

s s
X-Z XZ
n n
o de manera ms sencilla:

intervalo de confianza = X Z Sx

Siendo
s
Sx =
n
donde:
X : media aritmtica de la muestra.
Z : valor crtico o valor sigma. Se busca en la tabla de reas de la curva
normal, segn el nivel de confianza establecido.
Sx : error estndar.
s : desviacin estndar de la muestra.
n : tamao de la muestra.
Ejemplo 5-1. En una investigacin acerca del estado nutricional de los
escolares de primero a tercer grado, se encontr que los niveles de
hemoglobina en ayunas se distribuyen en forma normal, con una media
aritmtica de 12.38gr%, y una desviacin estndar de 0.87gr%. Se desea
conocer, con el 95% de confianza, el valor promedio de hemoglobina para esa
poblacin de escolares, de donde se extrajo la muestra aleatoria de 144 nios
(Puertas y col., 1998).
DATOS:
X = 12.38gr%
s = 0.87gr%
n = 144 nieos
nivel de confianza = 95 % ( = 0.05), el cual equivale a 1.96 sigma ().
s
Aplicando la frmula del intervalo de confianza = X Z
n
087 gr %
= 12.38 gr % 1.96
144
= 12.38 gr% 1.96x 0.07

= 12.38 gr % 0.14 12.52 gr%


12.24 gr%

Conclusin: En esa poblacin de escolares, la media aritmtica de


hemoglobina no debe ser menor de 12.24gr%, ni mayor de 12.52gr%. Se hace
tal afirmacin con 95% de probabilidades de estar en lo cierto, (nivel de
confianza) o con un 5 % de riesgo de no acertar o de equivocacin (Nivel de
significacin).

Ejemplo 5-2. En una muestra de 350 mujeres se evalu la edad en la


que se presentaron los primeros sntomas de osteoporosis. Se obtuvieron los
siguientes estadsticos de esa muestra: media aritmtica 48,2 aos y
desviacin estndar 10,2 aos. Qu estimacin con 95% de confianza puede
hacerse con respecto al parmetro media aritmtica de la poblacin a partir de
estos datos? (Macchi, 2003)

10.2aos
= 48.2aos 1.96
350
= 48.2 aos 1.96 x 0.55

= 48.2aos 1.07 47.1 aos


49.3 aos

En resumen, puede estimarse con 95 % de confianza que el parmetro


de la poblacin est entre 47,1 y 49,3.

Distribucin muestral de medias

Si tenemos una muestra aleatoria de una poblacin N(, ), se sabe


(Teorema del lmite central) que la funcin de la distribucin de la media
muestral es tambin normal con media y varianza 2/n. Esto es exacto
para poblaciones normales y aproximado (buena aproximacin con n>30)
para poblaciones cualesquiera. Es decir es el error tpico, o error
estndar de la media.

Cmo usamos esto en nuestro problema de estimacin?


1 problema: No hay tablas para cualquier normal, slo para la normal =0
y =1 (la llamada z); pero haciendo la transformacin (llamada tipificacin)
una normal de media y desviacin se transforma en una z.

Llamando z al valor de una


variable normal tipificada que
deja a su derecha un rea bajo
la curva de , es decir, que la
probabilidad que la variable sea
mayor que ese valor es (estos
son los valores que ofrece la
tabla de la normal)

podremos construir intervalos


de la forma

para los que la probabilidad es 1


- .

Teniendo en cuenta la simetra de la normal y manipulando algebraicamente

que tambin se puede escribir

o, haciendo nfasis en que es el error estndar de la media,

Recurdese que la probabilidad de que est en este intervalo es 1 - . A


un intervalo de este tipo se le denomina intervalo de confianza con un nivel
de confianza del 100(1 - )%, o nivel de significacin de 100%. El nivel de
confianza habitual es el 95%, en cuyo caso =0,05 y z /2=1,96. Al valor
se le denomina estimacin puntual y se dice que es un estimador de .

Ejemplo 5-3. Si de una poblacin normal con varianza 4 se extrae una


muestra aleatoria de tamao 20 en la que se calcula se puede decir
que tiene una probabilidad de 0,95 de estar comprendida en el intervalo

que sera el intervalo de confianza al 95% para

En general esto es poco til, en los casos en que no se conoce tampoco


suele conocerse 2; en el caso ms realista de 2 desconocida los intervalos
de confianza se construyen con la t de Student (otra funcin de la
distribucin de probabilidades continua para la que hay tablas) en lugar de
la z.

o, haciendo nfasis en que es el error estndar estimado de la media,

Esta manera de construir los intervalos de confianza slo es vlida si la


variable es normal. Cuando n es grande (>30) se puede sustituir t por z sin
mucho error.

Estimacin de proporciones

Sea X una variable binomial de parmetros n y p (una variable binomial es


el nmero de xitos en n ensayos; en cada ensayo la probabilidad de xito
(p) es la misma, por ejemplo: nmero de diabticos en 2000 personas).
Si n es grande y p no est prximo a 0 1 (np 5) X es aproximadamente
normal con media np y varianza npq (siendo q = 1 - p) y se puede usar el
estadstico

(proporcin muestral), que es tambin aproximadamente normal, con error

tpico dado por


en consecuencia, un IC para p al 100(1 - )% ser
es decir, la misma estructura que antes:

Obsrvese que para construirlo, se necesita conocer p!. Si n es grande


(>30) se pueden substituir p y q por sus estimadores sin mucho error, en
cualquier caso como pq 0,25 si se substituye pq por 0,25 se obtiene un
intervalo ms conservador (ms grande).

Ejemplo 5-4. En una muestra de 100 pacientes sometidos a un cierto


tratamiento se obtienen 80 curaciones. Calcular el intervalo de confianza al
95% de la eficacia del tratamiento.

0,7216
0,8784

Qu significa este intervalo? La verdadera proporcin de curaciones est


comprendida entre, aproximadamente, 72% y 88% con un 95% de
probabilidad.
Es suficientemente preciso? Habr que juzgarlo con criterios clnicos.

Como se interpreta una confianza del 95%?

Si llevamos a cabo un experimento 100 veces obtendramos 100


distribuciones muestrales de datos y 100 intervalos de confianza. De estos 100
intervalos, 95 de ellos cubriran el valor del verdadero parmetro poblacional.
Desgraciada o afortunadamente, nosotros solo realizamos el experimento una
sola vez. Con lo que nunca sabremos si nuestro intervalo es uno de esos 95
que contienen el parmetro de estudio.

Tcnicamente, aunque esto suene a una sofisticacin innecesaria, no


podemos asociar el concepto de nivel de confianza con el concepto de
probabilidad. As no se puede establecer que tenemos una probabilidad del
95% de que el parmetro buscado este dentro de nuestro intervalo. Existe una
relacin entre el tamao de muestra y el ancho del intervalo de la confianza,
aunado a esto, el intervalo de confianza calculado algunas veces no contiene al
valor verdadero.

Digamos que se calcula un intervalo de confianza del 95% para una


media . La manera de interpretar esto es imaginar un nmero infinito de
muestras de la misma poblacin, el 95% de los intervalos calculados
contendrn la media de la poblacin, y el 5% no. Sin embargo, es incorrecto
indicar, tengo el 95% de confianza de que la media de la poblacin esta
dentro del intervalo.

Una vez ms la definicin usual de un intervalo de confianza del 95% es


un intervalo construido por un proceso tal que el intervalo contendr el valor
verdadero el 95% del tiempo. Esto significa que el 95% es una caracterstica
del proceso, no el intervalo.

ACTIVIDADES

INDIVIDUALES

1. Para cada una de las variables presentadas en el siguiente cuadro,


estime los respectivos parmetros de la poblacin. Utilice niveles de
confianza de 95 y 99%.

Distribucin de medias aritmticas y error estndar de las variables


peso, frecuencia cardiaca y porcentaje de antecedentes (Puertas y col.,
1998).

Variables En una clnica En el hogar


(n=50) (n=35)
Peso 70.6 Kg 1.5 Kg 81.3 Kg 1.9 Kg
Frecuencia cardiaca 72.3 l/m 1.6 l/m 82.9 l/m 1.9 l/m
(latidos por minuto)
Antecedentes 34.8 % 4.1 % 41.7 % 6.8 %
familiares positivos

2. En una muestra de 400 personas se encontr que el peso promedio era


de 67 Kg, con una desviacin estndar de 2,5 Kg. Calcule los lmites
entre los cuales se encuentra el peso verdadero, con un nivel de
confianza del 95 %.
3. En una investigacin en una comunidad sobre niveles de protenas
totales en la sangre, se tom una muestra de 15 individuos elegidos al
azar en esta comunidad, cuyos resultados fueron: X = 5,64 y s = 0,72.
Cul ser el verdadero promedio de protenas totales en la sangre para
la poblacin donde fue extrada esa muestra? Con un 95 y 99 % de
confianza.
4. Al examinar 9 muestras de agua se encontr una concentracin de in
nitrato igual a 0,5 g/ml. Se desea estimar mediante un intervalo de
confianza del 95% la concentracin promedio del nitrato en el agua, si se
sabe que la desviacin del mtodo para este anlisis es de 0,15 g/ml.

BIBLIOGRAFA
BSICA
Macchi, R.L. 2001. Introduccin a la Estadstica en Ciencias de la Salud.
Editorial Mdica Panamericana. Argentina.
Milton, J.S. y Tsocos, J.O. 1991. Estadstica para Biologa y Ciencias de
la Salud. McGraw-Hill, Inc.
Puertas L., E.; Urbina, J.; Blanck, M.E.; Granadillo, D.; Blanchard, M.;
Garca, J.A.; Vargas V.; P. & Chiquito, A. 1998. Bioestadstica,
Herramienta de la Investigacin. Ediciones del Consejo de Desarrollo
Cientfico, Humanstico y Tecnolgico de la Universidad de Carabobo,
Venezuela.
SALAMA, D. 1987. Estadstica: Metodologa y aplicaciones. Editora
Principios, Caracas, Venezuela. 308 p.
SEGNINI, S. 2003. Apuntes de Estadstica para Bilogos. Direccin de
Publicaciones ULA, Mrida, Venezuela.
Spiegel, M.R. y Stephens, L.J. 2002. Estadstica. Serie Schaum. 3era
edicin. McGraw-Hill, Inc.

COMPLEMENTARIA

Sokal, R.R. y Rohlf, F.J. 1995. Biometry, the principles and practice of
statistics in biological research. 3era edicin. W.H. Freeman and
Company. USA.

PGINAS WEB

http://www.hrc.es/bioest/M_docente.html

http://www.e-
biometria.com/ebiometria/conceptos_basicos/estimacion_estadistica.htm

Dr. Hossein Arsham


http://home.ubalt.edu/ntsbarsh/Business-stat/opre504S.htm#rqualestiunbsuff

Tema 6 Prueba de hiptesis

Competencias:
Toma decisiones en relacin a una poblacin a partir del anlisis de una
muestra, mediante la contrastacin de hiptesis.
Contenidos:
Definicin de hiptesis, planteamiento de hiptesis (Alternativa y Nula), Nivel
de significancia, Zonas de aceptacin y rechazo, seleccin del estadstico de
prueba, Errores (Tipo I, Tipo II), Toma de decisiones, Valores de prefijados.
Prueba de T.

Contrastes de hiptesis

Otro aspecto importante de la inferencia estadstica es la prueba de


hiptesis o docimasia de hiptesis, la cual se basa en los conceptos de
probabilidad y distribucin muestral y hace posible, segn la informacin
obtenida en una muestra.

Por lo general, el investigador busca conocer si un determinado factor


(variable) es o no causa de un efecto. Podra pensarse que slo observar y
comparar la frecuencia de aparicin de tal efecto, de un grupo expuesto a
riesgo y en otro no expuesto, sera ms que suficiente. Sin embargo, el rigor
cientfico exige la comprobacin de que las diferencias observadas entre los
dos grupos no se deben al azar, dado que las muestras utilizadas estn
conformadas por sujetos con tales caractersticas. Es necesario demostrar que
esas diferencias son estadsticamente significativas, con lo cual podra
atribursele la diferencia al factor en estudio y no al azar. Normalmente, las
hiptesis tratan de explicar esas diferencias.

Una hiptesis se define como una afirmacin que est sujeta a


verificacin o comprobacin; o una conjetura sobre la posible relacin entre
variables; o una afirmacin comprobable de una relacin potencial entre dos o
ms variables; o una explicacin posible o provisional que tiene en cuenta los
factores, sucesos o condiciones que el investigador procura comprender
(Puertas y col., 1998).

Todas estas definiciones presentan a las hiptesis como una afirmacin


o suposicin y no un hecho establecido. Tales suposiciones o posibles
relaciones entre las variables se denominan hiptesis de trabajo o de
investigacin; las cuales pueden ser descriptivas, correlacionales, de
diferencias entre grupos, de causalidad.

Una hiptesis estadstica es una asuncin relativa a una o varias


poblaciones, que puede ser cierta o no. Las hiptesis estadsticas se pueden
contrastar con la informacin extrada de las muestras y tanto si se aceptan
como si se rechazan se puede cometer un error.

La hiptesis formulada con intencin de rechazarla se llama hiptesis


nula y se representa por H0. Rechazar H0 implica aceptar una hiptesis
alternativa (H1).

Dado que las hiptesis de investigacin no pueden ser sometidas a


pruebas estadsticas, el investigador se vale de las hiptesis nulas para la
comprobacin emprica de las primeras.
La hiptesis nula niega la relacin entre las variables dependiente y la
independiente, por lo cual, se considera el reverso de las hiptesis de
investigacin. Una hiptesis nula es simplemente un planteamiento de ninguna
diferencia.

Los pasos necesarios para realizar un contraste relativo a un


parmetro en la comprobacin o prueba de hiptesis son (Puertas y col.,
1998; Segnini, 2003):

1. Formulacin de hiptesis.

2. Fijacin del nivel de significancia o del nivel de confianza.

3. Eleccin de un estadstico de la muestra y de su distribucin para


someter a prueba las hiptesis.

4. Establecimiento de una zona de rechazo para H0.

5. Clculos del estadstico a prueba.

6. Decisin estadstica.

7. Conclusiones.

A continuacin, estudiaremos con detalle cada uno de estos pasos:

1. Formulacin de hiptesis. Segn la intencin de la investigacin pueden


plantearse de diferentes maneras:

- Se puede establecer la hiptesis nula en trminos de igualdad

- Establecer la hiptesis alternativa, que puede hacerse de tres maneras,


dependiendo del inters del investigador

A) Hi: = un valor dado o Hi: 1 2 o Hi: P1 P2

H0: un valor dado o H0: 1 = 2 o H0: P1 = P2

En este caso, el inters es determinar si existe o no diferencia


significativa entre ambos parmetros. La hiptesis no plantea direccin de la
diferencia. Por lo tanto la prueba es bilateral:
A)

Cuando se establecen hiptesis donde uno de los valores es menor,


menos eficaz, o superior; las pruebas son unilaterales, y por lo tanto las
hiptesis se platean de la siguiente manera:

B) Hi: < un valor dado o Hi: 1 < 2 o Hi: P1 < P2

C) Hi: > un valor dado o Hi: 1 > 2 o Hi: P1 > P2

H0: = un valor dado o H0: 1 = 2 o H0: P1 = P2

En estos casos las pruebas son unilaterales o de una sola cola.

B) Cola izquierda C) Cola derecha

Ejemplo 6-1. Un investigador sospecha que debido a la poca abundancia de


alimento que hay en un ro, la talla promedio de las truchas adultas que viven
en el mismo no alcanzan el tamao mnimo de pesca permitido que es de 25
cm. Si se comprueba la sospecha del investigador se prohibir la pesca de
truchas en ese ro, de lo contrario no se tomar ninguna medida (Segnini,
2003).

Puesto que el planteamiento que se quiere probar es que la talla


promedio de las truchas es menor al valor mnimo permitido, las hiptesis a
probar deben ser las siguientes:

H0: = 25

Hi: < 25

Ejemplo 6-2. Se quiere saber si una nueva droga es eficaz como tratamiento
del SIDA. Para lo cual a un grupo de pacientes se le aplica un tratamiento con
la droga. Si la droga es eficaz a la mayora de los pacientes, es decir ms de la
mitad de los pacientes a los cuales se les aplic el tratamiento con la droga,
debieron responder positivamente a la enfermedad (Segnini, 2003).
Por lo tanto, si se considera que p es la proporcin de pacientes para los
cuales la droga es eficaz, las hiptesis que se deben someter a prueba sern
las siguientes:

H0: p = 0,5

Hi: p > 0,5

2. Fijacin del nivel de significancia o del nivel de confianza. El nivel de


significacin o de significancia es la probabilidad de equivocarse (riesgo de
equivocacin) que tiene el investigador al tomar la decisin de rechazar o no
una hiptesis nula (Puertas y col., 1998).

Dado el carcter aleatorio de las observaciones muestrales, es posible


que el estadstico pueda desviarse tanto de lo esperado, que se decida
descartar la hiptesis de nulidad (an siendo cierta). Es deseable que sea
pequea esa probabilidad de descartar una hiptesis nula que es cierta. De all
que los investigadores utilicen con mayor frecuencia los niveles de significacin
de 0,05 o 0,01.

En el nivel de significacin de 0,05 el investigador tiene un 5 % de riesgo


de equivocacin, mientras que cuenta con un 95 % de seguridad (nivel de
confianza) de llegar a una conclusin correcta. De igual manera, el nivel de
significancia de 0,01 implica un 99 % de probabilidad de estar tomando una
conclusin correcta y slo un 1% de riesgo de error, al formular esa conclusin.
An cuando el uso de estos niveles es arbitrario (0,01 y 0,05), puede decirse
que estn basados en la experiencia y el razonamiento lgico del investigador.

A la magnitud de la probabilidad del riesgo de equivocacin se le


denomina nivel de significancia o de significacin.

El complemento al nivel de significacin es el nivel de confianza, por lo


cual, segn esta ptica, el rea bajo la curva normal queda dividida en dos
partes: una zona de No rechazo de la H0, y una (o dos) zona de rechazo de H0.
La ubicacin de la zona de rechazo depende de lo expresado en la hiptesis de
trabajo (). Si esta no indica la direccin de la diferencia, la zona de rechazo
estar ubicada en ambos extremos de la curva (prueba bilateral o de dos
colas).

Si la hiptesis de trabajo plantea la direccin de la diferencia (menor que


o mayor que), la zona de rechazo estar en un solo extremo de la curva (a la
izquierda o la derecha segn el caso), y la prueba ser unilateral o de una sola
cola.

El trmino significancia se refiere a que la diferencia entre el valor


hipottico y el resultado muestral se considera importante, es decir, demasiado
grande para atribursele al azar (al simple hecho de que por azar se haya
utilizado esa muestra y no otra, con valores diferentes).
3. Eleccin de un estadstico de la muestra y de su distribucin para
someter a prueba las hiptesis.

Un estadstico de prueba es un valor numrico que se calcula a partir de


los datos de una muestra y es utilizado para tomar la decisin de rechazar o no
una hiptesis nula. Los estadsticos de prueba utilizados dependen del tamao
de la muestra y de si se conoce o no la varianza de la poblacin (Puertas y col.,
1998).

Este estadstico de contraste, cuya distribucin muestral se


conozca en H0 y que est relacionado con y se establece en base a
dicha distribucin. En la regin crtica, el estadstico tiene una
probabilidad menor que si H0 fuera cierta y, en consecuencia, si el
estadstico cayera en la misma, se rechazara H0.

Obsrvese que, de esta manera, se est ms seguro cuando se


rechaza una hiptesis que cuando no. Por eso se fija como H 0 lo que
se quiere rechazar. Cuando no se rechaza, no se ha demostrado
nada, simplemente no se ha podido rechazar. Por otro lado, la
decisin se toma en base a la distribucin muestral en H 0, por eso es
necesario que tenga la igualdad.

a) Si los datos provienen de una poblacin distribuida normalmente con


varianza desconocida, se utiliza un estadstico como la prueba Z.

X
Z =
Sx

b) Cuando el muestreo se hace de una poblacin normalmente


distribuida y se desconoce su varianza, el estadstico de prueba a utilizar para
comprobar la media poblacional ser t.

X
t=
Sx

c) Cuando n es grande, la distribucin de t se aproxima a la distribucin


normal y se puede usar como estadstico de prueba Z, an cuando se
desconozca la varianza de la poblacin.

4. Establecimiento de una zona de rechazo para H0, con el fin de tomar una
decisin. Para establecer la regla de decisin, es necesario conocer el valor
crtico o valor en unidades sigmas donde se levanta la ordenada que limita las
zonas de rechazo y aceptacin, dependiendo del nivel de significacin, en las
curvas de probabilidades (Puertas y col., 1998).

Reglas de decisin, refirindose a la distribucin normal:

- Se rechaza H0 s, -Zc > Z > +Zc (para pruebas bilaterales).


- Se rechaza H0 s, -Zc > Z (para prueba unilateral de cola izquierda).
- Se rechaza H0 s, Z > + Zc (para prueba unilateral de cola derecha).

Los valores crticos (Z) se hallan en las tablas de rea bajo la curva
normal. Zc es el valor calculado mediante la frmula planteada en el punto
anterior.

Comparar los resultados obtenidos en la prueba estadstica y la regla de


decisin permite rechazar o no la hiptesis nula. Al tomar tal decisin se
plantean cuatro posibilidades:

a) Rechazar una hiptesis que es falsa (decisin correcta).


b) Aceptar una hiptesis que es cierta (decisin correcta).
c) Rechazar una hiptesis que es cierta (error tipo I).
d) Aceptar una hiptesis que es falsa (error tipo II)

La situacin se puede esquematizar:

H0 cierta H0 falsa
H1 cierta
H0 rechazada Error tipo I ( ) Decisin correcta
(*)
H0 no rechazada Decisin correcta Error tipo II ( )

(*) Decisin correcta que se busca

= p(rechazar H0|H0 cierta)


= p(aceptar H0|H0 falsa)
Potencia =1- = p(rechazar H0|H0 falsa)

Detalles a tener en cuenta

1. y estn inversamente relacionadas.


2. Slo pueden disminuirse las dos, aumentando n.

Por lo tanto, al rechazar o no una hiptesis nula, se corre el riesgo de


cometer alguno de los dos errores ( o ). Es prudente que en una situacin
determinada se trate de minimizar la probabilidad de cometer error. En muchas
reas de investigacin resulta difcil evaluar la seriedad de cada uno de ellos;
por lo cual, se selecciona un valor pequeo para ( = 0,001; 0,01; 0,05
0,10). La eleccin de refleja la opinin del investigador sobre la seriedad de
cometer error tipo I. Mientras ms serias se consideren las consecuencias de
ste, menor ser el valor de .

5. Clculos del estadstico a prueba. Se calcula el estadstico para una


muestra aleatoria y se compara con la regin crtica, o
equivalentemente, se calcula el "valor p" del estadstico (probabilidad
de obtener ese valor, u otro ms alejado de la H 0, si H0 fuera cierta) y
se compara con .
Ejemplo 6-3. Estamos estudiando el efecto del estrs sobre la presin arterial.
Nuestra hiptesis es que la presin sistlica media en varones jvenes
estresados es mayor que 18cm de Hg. Estudiamos una muestra de 36 sujetos
y encontramos:

1. Se trata de un contraste sobre medias. La hiptesis nula (lo que queremos


rechazar) es:

2. la hiptesis alternativa es un contraste lateral derecho.

3. Fijamos "a priori" el nivel de significacin en 0,05 (el habitual).

4. El estadstico para el contraste es

y la regin crtica T>t


Si el contraste hubiera sido lateral izquierdo, la regin crtica sera
T<t1-
y si hubiera sido bilateral T<t1- /2 o T>t /2
En este ejemplo t(35)0,05=1,69.

5. Calculamos el valor de t en la muestra

no est en la regin crtica (no es mayor que 1,69), por tanto no rechazamos
H0.

Otra manera equivalente de hacer lo mismo (lo que hacen los


paquetes estadsticos) es buscar en las tablas el "valor p" que
corresponde a T=0,833, que para 35 g.l. es aproximadamente 0,20.
Es decir, si H0 fuera cierta, la probabilidad de encontrar un valor de T
como el que hemos encontrado o mayor (por qu mayor? Porque la
H1 es que es mayor, lo que producira una media muestral mayor y
por tanto mayor valor de t) es 0,20, dicho de otra manera la
probabilidad de equivocarnos si rechazamos H0 es 0,20, como la
frontera se establece en 0,05 no la rechazamos.
Este valor crtico de 0,05 es arbitrario pero es la convencin habitual.

Cun razonable es?

Problema al respecto: en la hiptesis de que un mazo de cartas est


bien barajado, la probabilidad de que al sacar dos cartas sean, p.e.:1) el as de
oros y 2) el rey de bastos es 1/40 x 1/39=0,000833.

Si hacemos la experiencia y obtenemos ese resultado rechazaramos


la hiptesis de que el mazo est bien barajado? Cunto se parece esto a la
lgica del contraste de hiptesis?

Volvamos al problema del estrs. Como no se rechaza H 0, se puede


cometer un error tipo II. Cul es ?. De hecho, sera la informacin relevante a
comunicar en este estudio (la probabilidad del error que se pude cometer en
l). Habitualmente, sin embargo, no se da porque los paquetes estadsticos no
la calculan.
Para calcularla se debe concretar H 1, p.e. = 20 (el criterio para este valor no
es estadstico).

=p(aceptar H0|H1 cierta)

Supongamos que el tamao muestral sea suficientemente grande


para poder aproximar t a z.

Cundo se acepta H0? si z 1,69

es decir, se acepta H0 si

Qu probabilidad hay de encontrar si = 20 (zona verde


del grfico)? En esta hiptesis lo que se distribuye como una z es
6 y 7. Decisin y Conclusiones.

Utilizando las frmulas del error estndar y del estadstico de prueba, se


determina si el error de muestreo es tan grande como para concluir que las
diferencias NO son estadsticamente significativas, por lo cual NO se
rechaza la hiptesis nula. O ese error es tan pequeo que NO afecta los
resultados, y se puede concluir que las diferencias son estadsticamente
significativas, por tanto, se rechaza la hiptesis nula, y se tienen elementos
para considerar como vlida la hiptesis de trabajo.

Diferentes Casos de Pruebas de Hiptesis

En la prctica las pruebas de hiptesis se utilizan en las siguientes


situaciones:

I) Diferencia entre un parmetro y un estadstico: Cuando de una


poblacin se toma una muestra, es de esperar que esta sea
representativa de la poblacin, por lo tanto, al medir en ella una
variable, ese valor (Estadstico) debe ser similar al valor considerado
como normal en esa poblacin (Parmetro); o en todo caso, estar
dentro de los limites de confianza estimados para el parmetro. De
no ser as, cabe la posibilidad que esa muestra posea algn
elemento o factor particular, al cual pueda atribudsele el valor
atpico del estadstico calculado.

II) Diferencia entre dos estadsticos de muestras independientes:


En muchas investigaciones se busca conocer la eficiencia de un
tratamiento sobre otro, o el efecto de una variable sobre otra, esto
requiere la conformacin de dos grupos, los cuales deben ser
totalmente similares en todas las variables independientes. Al grupo
al cual se le administra la variable en estudio se le denomina Grupo
Experimental y el otro donde esta ausente dicha variable se
considera Grupo Control .

En Este caso se trata de conocer los valores representativos


(Estadsticos) obtenidos en ambos grupos, y al compararlos
determinar si existe diferencia significativa entre los dos estadsticos.
Si la diferencia resulta significativa, ello puede el efecto de la variable
en estudio, en cuyo caso se rechaza la hiptesis nula. Pero si la
diferencia no es significativa, se le atribuye al proceso de azar, al cual
fueron sometidos los sujetos al momento de elegirlos para formar las
muestras. Con este propsitos se aplican pruebas de hiptesis para
comparar medias de dos muestras, y las proporciones y los
porcentajes de dos muestras independientes.
Todos estos planteamientos pueden comprenderse mejor al resolverse el
siguiente ejercicio, donde se someten a prueba cada una de las modalidades
de contraste mencionadas.

Ejemplo 6-4. En un estudio realizado e el Hospital Universitario para conocer


las medidas Antropomtricas de los recin nacidos durante los ltimos aos, se
encontraron los siguientes datos

PESO (Kg) ESTATURA (cm)


VARONES n = 256
X 4,30 55
s 0,55 2,5
3,50 51
HEMBRAS n =225
X 3,90 53
s 0,50 2,2
3,00 50

De acuerdo con estos datos, se quiere probar que:

a) Las nias nacidas en ese centro tiene una estatura significativamente


superior a 50 cm, considerados como normal para esa poblacin. Nivel
de confianza 99%.
b) La diferencia en el peso promedio de los varones es estadsticamente
significativa con respecto a su promedio normal. Nivel de significacin:
0,01.
c) En ese centro hospitalario, el porcentaje de nacimientos de hembras es
menor al porcentaje esperado (50%). Nivel de confianza: 95%.
d) La estatura promedio de los varones es significativamente superior a las
de las hembras, nacidas en este centro. Nivel de significacin: 10%.
e) Estadsticamente es significativa la diferencia entre el porcentaje del
nacimiento de varones con respecto al porcentaje de nacimientos de
hembras en ese centro.

I.1) Prueba de hiptesis de una media poblacional.

En este caso se compara la media aritmtica de la poblacin con la


media aritmtica obtenida de una muestra.

a) Las nias nacidas en ese centro tienen una estatura significativamente


superior a 50cm, considerados como normal para esa poblacin.

1.- Hiptesis a prueba:

Datos: X = 53 cms Hi: > 50 cms


S= 2,2 cms Ho : < 50 cms

= 50cms

N = 225 nias

Nivel de confianza = 99%

2.- Nivel de significacin: = 0,01

La prueba es unilateral, dado que el inters del investigador es conocer si la


diferencia observada entre las dos medias es significativamente mayor. Por lo
tanto, la zona de rechazo se ubica en la cola derecha de la curva; en un rea
de 0,01. Para saber a que valor critico corresponde a esta zona, se recurre a la
tabla de reas bajo la curva normal. Como esta tabal representa solo la mitad
de la curva (0,5), se resta de ella el rea critica: 0,5 0,01 = 0,49

En el cuerpo de la tabla se busca el 0,4900 (o el mas prximo a el) para saber


cuantas desviaciones sigmas ( ) corresponde, y con ello tomar la decisin.

3.- Estadstico a prueba: Z

Aun cuando se desconoce la varianza de la poblacin, puede utilizarse Z,


dado que la muestra es grande.

X
Z =
Sx

4.- Regla de decisin: Se rechaza H 0 si Z calculada es mayor a 2,33. (Zc <


2,33)

5.- Clculos del estadstico de Prueba

X - 53 - 50 3 3
Z= = = = = 20,41
s/ n 2,2 / 225 2,2 / 15 0,147

Zona de no
rechazo Zona de rechazo
de Ho

0 2.33

6.-Decisin: Dado que las Z calculada (20,41) es mayor a 2,33, se rechaza la


hiptesis nula. La diferencia encontrada no podra ser explicada por el azar. Tal
diferencia es estadsticamente significativa. Por lo cual se tienen suficientes
evidencias para considerar la posibilidad de que sea cierta la hiptesis de
trabajo, con mas de 99% de confianza.
7.- Conclusin: Las nias nacidas en los ltimos aos en el Hospital
Universitario, tienen una estatura promedio superior a lo considerado como
normal para esa poblacin.

b) La diferencia en el peso promedio en los varones es estadsticamente


significativa con respecto a su promedio normal.

1.- Hiptesis a prueba

Datos: X = 4,300 kg Hi:

s= 0,550 Kg Ho : =

n = 256 nios

= 3,500 Kg

Nivel de confianza = 99%

2.- Nivel de significacin: = 0,01

El Planteamiento de la hiptesis de esta investigacin no indica direccin en la


diferencia; solo se habla de una diferencia significativa, por lo tanto, se trata de
una prueba bilateral, en cuyo caso, la regin critica o la zona de rechazo de la
hiptesis nula, ocupa los dos extremos de la curva.. En este caso el rea de
significacin (regin de rechazo de la hipotes nula) se divide entre dos: 0,01 / 2
= 0,005

Indicando este valor en ambas colas de la curva, la zona de rechazo de H 0


corresponde a 0,005. Para saber a que valor critico corresponde esta zona, se
recurre a la tabla de rea normal. Pero como esta tabla representa a la mitad
de la curva (0,5), se resta de ella el rea critica: 0,5000 0,005 = 0,4950

En l cuerpo de la tabla se busca el 0,4950 (o el mas prximo a el) para saber a


cuantas desviaciones sigmas ( ) corresponde, y con ello tomar la decisin.

3.- Estadstico de prueba: Z

4.- Regla de decisin:

Se rechaza a H0 si Z calculada es menor a -2,575, o mayor a 2,575.

(-2,575 < Zc < 2,575)

5.- Calculo del estadstico de Prueba:

X - 4,300 - 3,500 0,800


Z= = = = 23,25
0,550 / 256 0,550 / 16 0,0344
Zona de no
rechazo de
Zona de rechazo H0 Zona de rechazo
de Ho de Ho

-2,575 0 2,575

6.- Decisin: Dado que la Z calculada (23,25) es mayor a 2,575 se rechaza la


hiptesis nula, con mas de 99% de probabilidades de certeza. La diferencia
observada no podra ser explicada por el azar. Tal diferencia es
estadsticamente significativa. Por lo cual se tienen suficientes evidencias para
considerar la posibilidad de que sea cierta la hiptesis de trabajo.

7.- Conclusiones: Es significativa la diferencia observada entre la estatura de


los varones nacidos en el Hospital Universitario en los ltimos aos, con
respecto al promedio considerado como normal para esa poblacin.

I.2) Prueba de hiptesis de una proporcin de la poblacin

En este caso se compara la proporcin o el porcentaje de la poblacin con la


proporcin o el porcentaje obtenido de una muestra.

c) En ese centro hospitalario, el porcentaje de nacimientos de hembras es


menor al porcentaje esperado (50%).

1.- Hiptesis a prueba:

Datos: Total de nacimientos = 481 Hi: P< 50%

Nacimientos de nias = 225 Ho : P = 50%

nacimiento de hembras 255


p= * 100 = * 100 = 47%
Total de nacimientos 481

P = 50% (porcentaje normal del universo)

Q = 50%

Nivel de confianza = 95%

2.- Nivel de significacin: = 0,05

Prueba unilateral de cola izquierda, por lo tanto: 0,5000 0,05 = 0,4500


3.- Estadstico de prueba: Z

Z=
P-p
Es =
P * Q
Es n

4.- Regla de decisin:

Se rechaza a H0 si Z calculada es menor a -1,645.

(-1,645 < Zc )

5.- Clculo del estadstico de Prueba: Z;

Pero antes es conveniente calcular el error estndar.

Es =
P * Q = 50% * 50% = 11,11
n 225

Es = 3,33

p-P 47% - 50% - 3%


Z= = = = - 0,90
Es 3,33 3,33

Zona no
rechazo
Zona de rechazo H0
H0

-1,645 -0,90 0

6.- Decisin: Dado que la Z calculada (-0,90) es mayor a -1,645, NO se rechaza


la hiptesis nula. Con una confianza de 95%, se puede afirmar que la diferencia
NO es estadsticamente significativa. Esta diferencia pudo ser por azar, podra
ser por la muestra utilizada.

7.- Conclusiones: La proporcin de nias nacidas en los ltimos diez aos en le


Hospital Universitario no fue menor a lo normal.

II.1) Prueba de hiptesis de la diferencia entre dos medias


En este caso se compara la media aritmtica de una muestra con la media
aritmtica de la otra muestra, buscando la diferencia entre dos estadsticos de
muestras independientes.

d) La estatura promedio de los varones es significativamente superior la de las


hembras, nacidas en ese centro.

Datos: X = 55 cms X1 = 55 cms

S1 = 2,5 cms S2 = 2,2 cms

n1 = 256 nios n2 = 225 nias

Nivel de significancia = 10% (nivel de confianza = 90)

1.- Hiptesis a prueba:

Hi: 1 > 2

Ho : 1 = 2

2.- Nivel de significancia: = 0,10

La prueba es unilateral, hacia la cola derecha:

0,5000 0,10 = 0,4000

3.- Estadstico a prueba: Z;

4.- Regla de decisin:

Se rechaza Ho si z calculada es mayor de 1,28 (Zc > 1,28)

5.- Clculos del estadstico a prueba: pero antes conviene calcular el error
estndar de la diferencia.

1 - 2
Z=
E s ( dif)
Es(dif) = E1 2 E 2 2

S1 S2
E1 = E2 =
n1 n2

2,5 2,2
E1 = = 0,15625 E2 = = 0,14666
256 225
Aplicando la frmula del error estndar de la diferencia, se tiene:

Es(dif) = 0,15625 2 0,14666 2

Es(dif) = 0,024414 0.021509 = 0,04592

Es(dif) = 0,21

55 cm - 53 cm 2 cm
Z= = = 9,523
0,21 0,21

Zona de
aceptacin H0 Zona de rechazo
H0 9,523

0 1,28

6.- Decisin: Dado que el valor de Z calculada es mayor (9,523) al valor crtico
(1,28), se puede afirmar con ms de 90% de confianza, que la diferencia entre
las dos medias comparadas, es estadsticamente significativa. Se rechaza la
Hiptesis nula.

7.- Conclusin: Se tiene evidencias para que los nios (varones) nacidos en el
Hospital Universitario, durante los ltimos aos, tienen una estatura superior a
las nias nacidas en ese centro.

II.2) Prueba de hiptesis de la diferencia entre dos proporciones

En este caso se compara el porcentaje o la proporcin de una muestra


con el porcentaje o la proporcin de la otra muestra, buscando la diferencia
entre dos estadsticos de muestras independientes.

e) Estadsticamente es significativa la diferencia entre el porcentaje de


nacimiento de varones con respecto al porcentaje de nacimientos de hembras,
en ese centro.

1.- Hiptesis a prueba:


Datos: Total de nacimientos = 481 Hi: P1 P2

Nacimientos de nios (n1) = 256 nios Ho : P1 = P2

256
p varones = * 100 = 53%
481

Nacimientos de nias (n2) = 255 nias

255
p hembras = * 100 = 47%
481

En el universo, la probabilidad de nacimientos de varones es igual a la


probabilidad del nacimiento de hembras (50% para cada sexo).

P = 50% Q = 50%

Nivel de confianza = 95%

2.- Nivel de significacin: = 0,05(prueba bilateral)

0,05 / 2 = 0,025; 0,5000 0,025 = 0,475

3.- Estadstico a prueba de: Z

4.- Regla de decisin: Se rechaza H o si Z calculada es menor a -1,96 o mayor a


1,96

5.- Clculos del estadstico a prueba. Pero antes es conveniente obtener el


error estndar diferencial.

1 - 2
Z=
E s ( dif)
Es(dif) = E1 2 E 2 2

P * Q P * Q
Es = Es =
n1 n2

En esta frmula, para calcular el error estndar se utilizan los


porcentajes de la poblacin (parmetros).

50% * 50% = 9,7656


50% * 50% = 11,11
E1 = E 2=
226 225
En este caso, no es necesario resolver la raz cuadrada de estos errores
estndares, dado que la frmula del error estndar de la diferencia los eleva al
cuadrado nuevamente.

Es(dif) = 9,7656 2
11,1111 2
= 20,8767

Es(dif) =4,569

53% - 47% 6%
Z= = = 1,31
4,569 4,569

Zona de No
Zona de rechazo rechazo H0 Zona de rechazo
H0 H0

-1,96 0 1,96

6.- Decisin: Como el valor calculado de Z (1,31) es un valor inferior a 1,96 no


se rechaza la H0 . Se tienen evidencias para creer que la diferencia observada
entre los porcentajes no es estadsticamente significativa, con 95% de
confianza.

7.-Conclusin: En el Hospital Universitario, en la ltima dcada no ha habido


diferencia significativa entre la proporcin de nacimiento de varones y de
hembras.

Prueba t para muestras pequeas y para muestras relacionadas.

Los conceptos desarrollados en los puntos anteriores son aplicables


cuando se dispone de informacin obtenida en muestras grandes (mayores de
30 sujetos), dado que los valores de sus desviaciones relativas se distribuyen
aproximadamente en una curva normal; no sucediendo la misma distribucin
en muestras menores de 30 datos. En ellas el clculo de la desviacin estndar
se ve afectado por el reducido nmero de datos cuantitativos que intervienen
en su obtencin. La prueba t toma en cuenta esta limitacin.

La distribucin de las muestras pequeas tambin posee forma


simtrica, similar a la curva normal, diferencindose de sta en las colas,
donde posee un rea mayor. Sin embargo, en la medida en que aumenta el
tamao de la muestra, el rea de sus extremos se reduce, aproximndose a la
curva normal. Por tal motivo, en estudio donde se desconozca la varianza de la
poblacin, pero se utilicen muestras grandes, puede emplearse la prueba t,
como correspondera. En cuyo caso, siendo la muestra grande, l distribucin t
coincide con la distribucin normal.

Este planteamiento hace entender la existencia de una familia de curvas


de distribuciones t, dado que existe una curva diferente para cada tamao de
muestra o posibles grados de libertad.

Como modelo matemtico la distribucin t est calculado en una tabla,


donde se presenta su valor, segn los grados de libertad (n-1) y el nivel de
significacin. Dicho modelo es producto del trabajo realizado por W. Gosset,
bajo el seudnimo de Student. Se calcula con valores correspondientes a
variables cuantitativas, mediante la frmula:

X -
t=
Es

Aplicaciones principales de la distribucin t

Ya hemos explicado que cuando el tamao de la muestra es inferior a 30


sujetos y se desconoce la varianza de la poblacin, se utiliza la distribucin t.
para la

A.- Estimacin de la media poblacional

B.- Comparacin de dos medias aritmticas, en muestras independientes.

C.- Comparacin de medias aritmticas de muestras relacionadas.

A.- Estimacin de la media poblacional, en muestras pequeas:

Anteriormente se describi el procedimiento para estimar parmetros,


utilizando muestras grandes. En cuyo caso se destaca la necesidad de conocer
la media aritmtica (estadstico) de la muestra y el error estndar, para
construir el intervalo o lmites de confianza, entre los cuales puede encontrarse
el valor del parmetro, segn el nivel de confianza utilizado en el clculo.

Con muestras pequeas el procedimiento es similar. La diferencia radica


en que en stas se sustituye el valor crtico de Z por el valor crtico de t,
quedando la expresin matemtica:

X (t .Es) = Intervalo de confianza

Ejemplo: Un investigador est interesado en obtener una estimacin del nivel


promedio de nitrgeno excretado en muestra de orina de 24 horas de pacientes
que han recibido yodo radioactivo como terapia. Para ello tom la informacin
de 16 pacientes sometidos al tratamiento, y obtuvo una media de 7,87 gr por
100cc, y una desviacin estndar de 1,65 gr. Establezca el intervalo de
confianza para , slo 5% de riesgo de equivocacin.

Datos:

X = 7,87 grs.

s = 1,65 grs.

n = 16 pacientes

Nivel de confianza: 95%, el cual equivale a un = 0,05.

Dado que la curva es bilateral, se divide alfa entre dos, y se tiene un


riesgo de equivocacin de 0,025 a ambos lados de la curva. Se busca en la
tabla de distribucin t, bajo la columna 0,025 ( 0,975) en la fila de 15 gl
(grados de libertad = n-1; en este caso, 16 1 = 15 gl), donde se encuentra un
valor t = 2,131.

Se aplica la frmula para calcular el intervalo de confianza:

X (t .Es) = Intervalo de confianza

Antes de sustituir los trminos por sus valores, es conveniente calcular el


error estndar.

S 1,65 1,65
Es = = = = 0,413
n 16 4

Sustituyendo los trminos en la frmula, se tiene:

7,87 (2,131 0,413) = Intervalo de confianza

8,75 grs
7,87 0,88
6,99 grs
Conclusin: El nivel promedio de nitrgeno excretado en orina de 24
horas, para los pacientes que recibieron este tratamiento no debe ser menor de
6,99 grs. ni mayor de 8,75 grs. por 100 cc de orina, con 5% de riesgo de
equivocacin.

B.- Comparacin de dos medias, en muestras pequeas:

En el contraste de hiptesis de muestras pequeas se sigue la misma


metodologa empleada para muestras grandes, diferencindose de sta
solamente en el estadstico a prueba utilizado, en cuyo caso se calcula la
prueba t.
Igualmente pueden plantearse pruebas de hiptesis unilaterales o
bilaterales, dependiendo de si en la hiptesis de investigacin se estima o no la
direccin de la diferencia.

Prueba de hiptesis de una media poblacional

Ejemplo: En un grupo de 10 personas mayores de 65 aos se realiz un


estudio con el propsito de conocer el promedio de una enzima en la poblacin
de ancianos. En esta muestra se obtuvo un valor de promedio de la enzima
igual a 22, con una desviacin estndar de 6,71. Con este hallazgo, el
investigador podra concluir que el nivel promedio de esta enzima en los
ancianos es diferente de 25, considerado para la poblacin adulta? = 0,05.

1.- Hiptesis a prueba:

Hi: 25

H0: = 25

2.- Nivel de significacin: = 0,05.

Pero siendo la prueba bilateral, se tiene 0,05 : 2 = 0,025.

3.- Estadstico a prueba:

X - M
t=
Es

4.- Regla de decisin: Se rechaza H 0 si la t calculada es menor de -2,262 o


mayor de 2,262 (valor buscado en la tabla de distribucin t, en la columna
0,025 ( 0,975) prueba bilateral, con fila 9 gl).

22 - 25
5.- Clculos de t =
Es

S 6,71 6,71
Es = = = = 2,12
n 10 3,16

-3
t = 2,12 = - 1,415

6.- Decisin: No se rechaza la H 0, dado que la t calculada (-1,415) es mayor a


-2,262 (t de la tabla).

7.- Conclusin: El investigador no tiene base estadstica para afirmar que el


valor promedio de la enzima en estudio es diferente, significativamente en esa
poblacin de ancianos.
C.- Comparacin de dos medias, en muestras relacionadas:

Cuando se usan muestras pequeas, frecuentemente el grupo


experimental puede ser su propio control. En estos estudios las muestras no
son independientes, ya que estn constituidas por los mismos individuos, lo
cual hace presumir la existencia de cierto grado de dependencia o de
correlacin entre las dos medias. Se trata de estudios donde se busca una
diferencia entre las mediciones de un fenmeno ANTES Y DESPUES de
determinado evento.

Para calcular t en este caso, se determinan las diferencias entre los


valores anteriores y posteriores, considerndolas siempre en la misma
direccin. Se obtiene as el valor medio de las diferencias, la cual se somete a
prueba para determinar si es significativamente diferente de cero. Este
procedimiento conduce a establecer la desviacin estndar de las diferencias y
luego, error estndar.

Ejemplo: En un estudio sobre artrosis a nivel de fmur, se prob una nueva


tcnica de intervencin a fin de mejorar la movilidad del miembro lesionado. El
propsito de la intervencin fue reducir el ngulo Q. se estudiaron 11 casos, de
quienes se obtuvo la siguiente informacin:
Grados del Valores de las
ngulo diferencia entre
el pre y post
Grados del Valores de las
ngulo diferencia entre
el pre y post
Grados del Valores de las
ngulo diferencia entre
el pre y post
Grados del Valores de las
ngulo diferencia entre
el pre y post
Media del ngulo antes de la intervencin:

Media del ngulo despus de la intervencin:

La desviacin estndar se obtiene a partir de las diferencias encontradas


entre los valores de Antes y despus.

(d) (d)2
4 16
4 16
6 36
7 49
4 16
8 64
4 16
3 9
4 16
6 36
5 25
= 299

Desviacin estndar en datos directos:

S=

S = 5,47 Grados.

Una vez obtenidos los promedios la desviacin estndar, ya se dispone


de la informacin necesaria para realizar la prueba de hiptesis.

1.- Hiptesis a prueba: HI: 1 > 2

Ho: 1 = 2

2.- Nivel de significacin: = 0,05. (Prueba unilateral)

3.- Estadstico a prueba:

t=
4.- Regla de decisin: Se rechaza H0 si la t calculada es mayor de 1,8125.

5.- Clculos de t =

Es =

t=

6.- Decisin: Se rechaza la H 0, dado que la t calculada (3,03) es mayor a


1,8125 (t de la tabla). La diferencia encontrada es estadsticamente
significativa.

7.- Conclusin: Segn los resultados obtenidos se puede concluir que la


intervencin resultado efectiva para la movilidad de los miembros lesionados.

Prueba t para una Poblacin Simple

El propsito es comparar la media de la muestra con la media de la


poblacin dada. El objetivo es juzgar el valor medio demandado, basado en un
sistema de observaciones aleatorias de tamao n. Una condicin necesaria
para la validez del resultado es que la distribucin de la poblacin sea normal,
si el tamao de muestra n es pequeo (digamos menor a 30.)

La misin es decidir si aceptar la hiptesis nula:

H0 = = 0

rechazar la hiptesis nula a favor de hiptesis alternativa:

Ha: es significativamente diferente de 0

El esquema de la prueba consiste en calcular un estadstico t:

T = [( - 0) n1/2] / S
De donde es la media estimada y S2 es la varianza estimada basada en n
observaciones aleatorias.

El estadstico anterior se distribuye como una distribucin t con


parmetro de gl. = = (n-1). Si el valor absoluto del T estadstico calculado
es demasiado grande comparado con el valor crtico de la tabla t, entonces se
rechaza la proposicin del valor para la media de la poblacin.

Esta prueba tambin se podra utilizar para probar proposiciones


similares para otras poblaciones unimodal incluyendo aquellos con variables
aleatorias discretas, tales como proporcin, con tal de que hayan suficientes
observaciones (ms de 30) .

Clculo del tamao muestral para contrastes sobre medias

Sea el contraste (bilateral)


H0: = 0
H1: > 0

Para calcular el tamao


muestral debemos, adems
de fijar y , concretar H1

Concretando H1: = 0 + .

Si n suficientemente grande
para poder usar la normal,
es decir

resulta que

Si el contraste fuera a dos colas habra que cambiar z por z

Comparacin de medias

La hiptesis nula
H0: = d0
Generalmente d0=0

Hay 3 situaciones distintas:


1 conocidos (poco frecuente).
2 desconocidos pero iguales.
3 desconocidos pero distintos.
Los estadsticos son distintos (z en 1 y t en 2 y 3) pero el procedimiento
es el mismo. En los 3 casos se supone que las muestras son independientes; si
no lo fueran hay otro estadstico (t pareada).

Todos asumen normalidad. Si no se cumpliera hay que usar las llamadas


pruebas no paramtricas.

Ejemplo 6-4. En un ensayo clnico para evaluar un hipotensor se compara un


grupo placebo con el grupo tratado. La variable medida es la disminucin de la
presin sistlica y se obtiene: grupo placebo n = 35; = 3,7 mm de Hg. y s 2 =
33,9; grupo tratado n = 40; = 15,1 mm de Hg. y s 2 = 12,8. Es eficaz el
tratamiento?

Se trata de un contraste sobre diferencias de medias


H0: T P = 0
H1: T P> 0

Como no conocemos las varianzas, para realizarlo debemos decidir si son


iguales o distintas, para ello se plantea el contraste
H0:
H1:

El estadstico es , para el que p<0,05, en consecuencia rechazamos la H 0 y


concluimos que las varianzas son distintas. Por lo tanto usaramos la t para
varianzas distintas. Haciendo los clculos t = -10,2 p<0,05 rechazamos la H0 y
concluimos que las medias son distintas.

Contrastes sobre independencia de v.a. cualitativas

Se quiere estudiar un posible factor pronstico del xito de una terapia, p.e.
cierto grado de albuminuria como mal pronstico en la dilisis. Los resultados de un
estudio de este tipo se pueden comprimir en una tabla 2x2 del tipo

F nF

E a b m = a+b

nE c d n = c+d

e = a+c f = b+d T

Se estudian T individuos, a tienen al factor (F) y tiene xito la terapia (E), b no


tienen al factor (nF) y tiene xito la terapia, ...
Ojo! A pesar de la aparente "inocencia" de esta tabla, puede
significar cosas distintas segn el diseo del estudio. No todas las
probabilidades de las que se habla ms abajo se pueden estimar
siempre.

H0 es que el factor F y el xito E son independientes (F no es factor pronstico)


y H1 que estn asociados (s es factor pronstico). Si son independientes
p(EF) = p(E)p(F). A partir de los datos de la tabla las mejores estimaciones
de estas probabilidades son , por lo tanto en H 0 , en consecuencia el valor
esperado para esa celda en H0 es (cociente entre el producto de los totales
marginales y el gran total), del mismo modo se calculan los dems valores
esperados y se construye el estadstico

que se distribuye segn una distribucin conocida denominada ji-cuadrado,


que depende de un parmetro llamado "grados de libertad" (g.l.) Los g.l. en
esta tabla son 1. Esto se puede generalizar a tablas CxF y los grados de
libertad son (C-1)x(F-1).

Ejemplo 6-5. En una muestra de 100 pacientes que sufrieron infarto de miocardio se
observa que 75 sobrevivieron ms de 5 aos (xito). Se quiere estudiar su posible
asociacin con la realizacin de ejercicio moderado (factor). La tabla es

F nF

E 50 25 75

nE 10 15 25

60 40 100

Calculamos los valores esperados en H0

F nF

E 60x75/100=45 40x75/100=30

nE 60x25/100=15 40x25/100=10

Obsrvese que una vez calculado uno de los valores esperados, los
dems vienen dados para conservar los totales marginales (eso es lo que
significa que hay 1 g.l.). A partir de aqu calculamos
Rechazamos la H0 y concluimos que hay asociacin entre el ejercicio y la
supervivencia. Obviamente esta asociacin no es necesariamente causal.
ACTIVIDADES

INDIVIDUALES

1. En un estudio de una comunidad se sospecha que el contenido de


protena total en la sangre en un grupo de personas sometidas a cierto
rgimen de alimentacin no es el mismo que el registrado en otro grupo
de personas con otro tipo de alimentacin. Se sabe que el contenido de
protena total tiene un valor promedio igual a 7,0 unidades. De qu
manera usted planteara las hiptesis nula y de prueba?

2. En unas jornadas de trabajo de campo sobre salud bucal, en una


poblacin costea se pudo detectar que de 180 personas examinadas, el
62% present caries, lo cual hace pensar que en esa comunidad la
prevalencia de caries de inferior al 73% reportado por diversos
investigadores, como el porcentaje frecuentemente diagnosticado en la
poblacin. Trabaje con una p = 0,01 para probar esta hiptesis.

3. En una muestra de 64 nios de una escuela pblica se encontr un


promedio de ndice de desnutricin de 0,35 y un error estndar de 0,02.
As mismo, en una muestra de 81 nios de un colegio privado, se
encontr un ndice de desnutricin de 0,31 y una desviacin estndar de
0,05. Estos hallazgos indican que el ndice de desnutricin es menor en
los nios de las escuelas privadas que en los de las pblicas. Pruebe
esta hiptesis con 99% de confianza.

4. Para comparar los resultados del empleo de dos anestsicos locales (A y


B) diferentes se dividi en forma aleatoria a 60 voluntarios en dos grupos
de 30. Los integrantes de cada uno de ellos fueron anestesiados con
uno de los dos frmacos.
La evaluacin del tiempo en segundos para lograr el efecto anestsico
arroj un resultado medio de 150 con una desviacin estndar de 28 en
el grupo que recibi A, mientras que en el que recibi B los respectivos
valores fueron 165 y 34. Los clculos correspondientes, realizados con
un programa informtico apropiado, permiten establecer que el valor de t
(en este caso con 58 grados a una tabla de libertad) para el experimento
fue 1,865. la consulta a una tabla t, lo que en general no es necesario,
ya que el programa informtico brinda la informacin, indica que la
probabilidad asociada a ese valor es mayor que 0,05, por lo tanto no
existe justificacin para el rechazo de la hiptesis nula y puede decirse
que no se encontr diferencia significativa entre ambos anestsicos.

5. La diferencia observada en las medias aritmticas en la experiencia del


ejemplo anterior fue de 15 (165 en el grupo B y 150 en el A) y no se hall
significativa para la estadstica. Debe tenerse en cuenta que no rechazar
la hiptesis nula y su consiguiente aceptacin puede significar la
posibilidad de cometer un error de tipo II. Si se considera que es de
importancia clnica detectar como significativas diferencias medias de
18 seg en el efecto de los anestsicos debe establecerse el poder del
experimento para hacerlo. En este caso el clculo, que puede hacerse
con un programa informtico, indica un poder poco inferior al 50% para
el valor de seleccionado (0,05) lo que indica que es muy posible que
se est cometiendo ese error, o sea que es alto el valor de .
Si se quiere tener un poder del 80% para detectar esa diferencia con el
mismo valor de alfa (0,05) el tamao para cada una de las dos muestras
debera ser de alrededor de 64.

6. Los datos que se muestran a continuacin representan valores de


eritrosedimentacin registrados en pacientes antes y despus de un
procedimiento quirrgico.

Paciente Antes (B) Despus Diferencia


(A) (B-A)
a 1,0 1,5 0,5
b 11,0 10,0 -1,0
c 3,0 3,5 0,5
d 5,0 5,5 0,5
e 5,5 6,0 0,5
f 2,0 2,5 0,5
g 7,0 8,0 1,0
h 6,0 7,5 1,5
i 5,0 6,5 1,5
j 4,0 6,5 2,5
k 6,0 7,0 1,0
l 5,0 4,0 -1,0
m 1,5 2,0 0,5
n 6,0 7,5 1,5
o 5,0 5,5 0,5
p 2,0 3,0 1,0

Diferencia 0,7
media

Los dos grupos de datos, antes y despus, no son


independientes, ya que fueron registrados por pares en un mismo
paciente.
La hiptesis nula en este caso es enunciar que en la poblacin la
media aritmtica de la diferencia entre los valores obtenidos antes y
despus de la intervencin quirrgica es 0.
La prueba de t para datos apareados o emparejados arroja un valor de 3,286
para el que se indica que la probabilidad es menor que 0,05. Puede rechazarse
la hiptesis nula y aceptarse que el procedimiento quirrgico produce una
modificacin estadsticamente significativa en el valor medio de
eritrosedimentacin.
BIBLIOGRAFA BSICA

Macchi, R.L. 2001. Introduccin a la Estadstica en Ciencias de la Salud.


Editorial Mdica Panamericana. Argentina.
Milton, J.S. y Tso
cos, J.O. 1991. Estadstica para Biologa y Ciencias de la Salud.
McGraw-Hill, Inc.
Puertas L., E.; Urbina, J.; Blanck, M.E.; Granadillo, D.; Blanchard, M.;
Garca, J.A.; Vargas V.; P. & Chiquito, A. 1998. Bioestadstica,
Herramienta de la Investigacin. Ediciones del Consejo de Desarrollo
Cientfico, Humanstico y Tecnolgico de la Universidad de Carabobo,
Venezuela.
SALAMA, D. 1987. Estadstica: Metodologa y aplicaciones. Editora
Principios, Caracas, Venezuela. 308 p.
SEGNINI, S. 2003. Apuntes de Estadstica para Bilogos. Direccin de
Publicaciones ULA, Mrida, Venezuela.
Spiegel, M.R. y Stephens, L.J. 2002. Estadstica. Serie Schaum. 3era
edicin. McGraw-Hill, Inc.

COMPLEMENTARIA

Sokal, R.R. y Rohlf, F.J. 1995. Biometry, the principles and practice of
statistics in biological research. 3era edicin. W.H. Freeman and
Company. USA.

PGINAS WEB

http://www.hrc.es/bioest/M_docente.html

http://www.e-
biometria.com/ebiometria/conceptos_basicos/estimacion_estadistica.htm

Dr. Hossein Arsham


http://home.ubalt.edu/ntsbarsh/Business-stat/opre504S.htm#rqualestiunbsuff
CAPITULO III ANALISIS DE VARIANZA

TEMA 7 ANLISIS DE VARIANZA DE UN SOLO FACTOR

COMPETENCIAS

Determina si una variable (dependiente) es afectada por distintos niveles de


otra variable (factor)

CONTENIDOS

-Introduccin al anlisis de la varianza


-Anlisis de la varianza (ANOVA) de una sola clasificacin o va: Suma total de
cuadrados, suma de cuadrados entre grupos, suma de cuadrados intra grupos,
grados de libertad, Prueba de F, Pruebas a posteriori.

Introduccin al anlisis de la varianza (ANOVA)

Muchos experimentos o tomas de muestras se realizan para determinar


el efecto que tienen distintos niveles de algn factor de prueba sobre una
variable de respuesta. El factor de contraste puede ser la temperatura, el
fabricante de un producto, la dosis de fertilizante, el da de la semana, o
cualquier otra cosa. Se desea investigar si una variable aleatoria sobre la que
se toman muestras es afectada por distintos niveles de un factor, es decir,
determinar si diferentes niveles del factor influyen sobre las diferencias en los
valores de la variable. Se tomar as una decisin estadstica relativa al efecto
que tienen los niveles del factor contrastado sobre la variable de respuesta

El anlisis de varianza de un factor es el modelo ms simple: una nica


variable nominal independiente con tres o ms niveles, explica una variable
dependiente continua (existen anlisis de varianzas donde se considera el
efecto de ms de un factor pero no los estudiaremos en este caso). Esta
comparacin podra realizarse comparando todas las posibles combinaciones
de dos en dos de las medias de todos los subgrupos formados, es decir realizar
pruebas de t de Student para cada par de medias. Esto trae varios problemas:
a) se incrementa el riesgo de dar un resultado falso positivo, al realizar ms de
un anlisis sobre un mismo conjunto de datos, es difcil interpretar la verdadera
influencia de la variable que acta como factor de clasificacin porque genera
diferentes niveles de significacin (p), resultantes de las comparaciones entre
sus subgrupos, y es un procedimiento muy largo y engorroso.

Con el anlisis de varianza podemos contrastar mas de dos medias


simultneamente, lo que reduce los errores y facilita la comparacin.
Mediante el ANOVA se analiza globalmente la influencia de cada variable
independiente, generndose un nico nivel de significacin. (http://www.e-
biometria.com/ebiometria/conceptos_basicos/ventajas_y_limitaciones_anova.ht
m)., adems se realizan todas las comparaciones entre medias en un solo
procedimiento.
Por lo tanto el anlisis de varianza se utiliza para contrastar hiptesis
acerca de varias medias poblacionales pero a diferencia de la t de Student, en
la prueba de ANOVA se realiza la comparacin entre dos varianzas:
VARIANZA ENTRE y VARIANZA DENTRO. La varianza entre es la varianza
entre grupos, tratamientos o niveles del factor y es la expresin de la
variabilidad de los datos entre los grupos por efecto del tratamiento o niveles
del factor, mientras que la varianza dentro es la varianza dentro de cada grupo,
tratamiento o nivel del factor y es la expresin de la variabilidad de los datos
debida a la variable o a la forma en que estos fueron tomados.

Si existe un efecto del tratamiento, se espera que la variabilidad de los


datos entre los grupos o niveles del tratamiento sea mayor que la variabilidad
dentro de cada grupo, lo que implica que la varianza entre debe ser mayor
que la varianza dentro.

En resumen, en un ANOVA la hiptesis nula a probar es:

H0:1= 2= 3=4= 5

que grficamente puede representarse as:

1=2=3

Mientras que las hiptesis alternativas son:

H1:1= 2
H2:1= 3
H3:1= 4
H4:1= 5
H5:2= 3
H6:2= 4
H7:2= 5
H8:3= 4
H9:3= 5
H10:4= 5

Para probar la hiptesis nula H0 sobre la igualdad de las cinco medias


se tendra que contrastar cada una de estas 10 hiptesis con la tcnica inicial
para dos medias. El rechazo de cualquiera de ellas implicar rechazar las
hiptesis de igualdad de las cinco medias. El no rechazo de las diez hiptesis
acerca de parejas de medias, tendr como consecuencia el no rechazo de la
hiptesis nula principal. Supngase que se contrast una hiptesis sobre
varias medias contrastando todas las parejas posibles de medias; el error tipo I
global sera mucho mayor que el valor asociado a una sola prueba. Las
tcnicas del ANOVA permiten contrastar la hiptesis nula (todas las medias son
iguales) contra la alternativa (al menos un valor medio es distinto) con un valor
de especificado.

Por lo tanto la hiptesis alternativa para un ANOVA puede resumirse


como:

H0: 1 2 3 4 5

que grficamente puede representarse as:

1 2 3

Ejemplo

Suponga que Ud. desea comparar si los pepinos cosechados en tres


localidades bajo distintas condiciones de fertilizacin (fertilizante qumico,
abonos verdes, compost) tienen el mismo peso. Para ello Ud. toma una
muestra de 10 pepinos en cada una de las cosechas de las localidades y
procede a comparar las 3 medias muestrales del peso de pepinos en las 3
localidades.

Si tuviramos slo 2 localidades y por ende 2 medias muestrales


aplicaramos una prueba de diferencia de medias (t de student). Pero como
tenemos ms de dos medias muestrales (en este caso 3) debemos aplicar una
prueba de ANOVA.

En primer lugar deben organizarse los datos recolectados en una tabla


similar a la Tabla 1 (es recomendable utilizar una hoja de clculo EXCEL para
elaborar la tabla, ya que ms adelante deben realizarse algunos clculos que
pueden trabajarse fcilmente en EXCEL).

TABLA 1 PESO DE LOS PEPINOS EN COSECHAS BAJO DIFERENTES


ABONOS

N Peso (g) de los pepinos Peso (g) de los pepinos Peso (g) de los
Pepino bajo fertilizante qumico bajo abono verde pepinos bajo compost
1 300 350 360
2 310 345 365
3 320 350 360
4 295 350 365
5 300 350 355
6 325 345 360
7 290 345 350
8 310 340 355
9 300 350 360
10 320 340 365

El ANOVA requiere que se cumplan los siguientes supuestos o condiciones:

1.- Los efectos debidos al azar as como los factores no contrastados estn
distribuidos en forma normal y la varianza originada por estos efectos es
constante a lo largo del experimento. La variable tiene distribucin normal.

2.-Igualdad de la varianza interna en todos los grupos


s21 = s22 = s23 = ......... = s2a = s2 (homocedasticidad)

3.- Independencia de las observaciones: NO debe haber ni autocorrelacin


entre los valores , ni grupos pareados. La independencia significa que los
resultados de una observacin del experimento no afectan los resultados de
cualquier otra observacin.
Fuente: http://www.fvet.edu.uy/estadis/anova.htm

Antes de realizar una prueba de de ANOVA debe probarse si estos


supuestos se cumplen o no. Si se cumplen se procede a realizar la prueba de
ANOVA, si no se cumplen debe aplicarse una prueba no paramtrica similar
como la prueba de Kruskall-Wallis.

cmo se prueba cada uno de estos supuestos?

1.-Para probar si una variable tiene o se ajusta a una distribucin normal


existen varios procedimientos posibles. En las direcciones WEB que se
sealan a continuacin (anexo) se explican algunas de ellas.

.-http://www.seh-lelha.org/intervalref.htm
.-http://www.seh-lelha.org/noparame.htm
.-
http://descartes.cnice.mecd.es/Bach_HCS_2/distribuciones_probabilidad/aplic_normal.
htm

2.-Para probar la homogeneidad (igualdad) de las varianzas de los distintos


grupos se realiza la prueba de F (que se explicar mas adelante) entre la
mayor y la menor varianza (o desviacin estndar) de los grupos. Si se prueba
que la mayor y la menor varianza (o desviacin estndar) no son
estadsticamente diferentes, es decir, son homogneas, entonces eso implica
que todas las dems varianzas (cuyos valores se encuentran entre estas dos)
tambin son homogneas y se puede aplicar el ANOVA.

3.-La independencia de las observaciones: a la hora de disear un experimento


o de tomar muestras a las cuales se les desee aplicar una prueba de ANOVA,
debe procurarse que los datos de los distintos grupos sean independientes, es
decir que los resultados o datos del experimento no afecten los resultados de
cualquier otra observacin o dato.

Anlisis de la varianza: Desarrollo de la prueba


Como se dijo anteriormente en un ANOVA:

Ho: m1 = m2 = m3 = md = m

H1: m1 m2 m3 md
donde:
.
. Xij
.
. ..
.. . Xij es la j-sima observacin del i-
XC .. . simo grupo (cada dato u
XA. .. ..
.. .. observacin)
.. .. X0
. XB . .. generalXi (XA, XB, XC, XD) es la media de
. .. XD cada grupo y
. ..
.
. . X0 es la media general de todas
.
..
.. las observaciones (gran media)
. ..
.
A B. C. D grupos
. .
Por lo tanto elevando
. al cuadrado:
.
2 2 2
(Xij- X0) = (Xij - Xi) + (Xi - X0) + 2(Xij - Xi)(Xi - X0)

de donde:

(Xi - X0)2 = (Xij - Xi)2 + (Xi - X0)2 , porque la suma de los dobles
productos se anula si los grupos son independientes.

Estudiemos cada una de estas sumas de cuadrados cuyas frmulas


son explicadas en el Cuadro 1:

CUADRO 1
suma de cuadrados total (SCT) es la suma de los cuadrados de
2
(xij x0) los desvos de todas las observaciones respecto a su media
general. Si la dividimos por n-1 obtendremos una estimacin de
la varianza de las observaciones (S2total )
suma de cuadrados entre grupos (SC entre) es la suma de los
2
(xij xi) cuadrados de los desvos de las medias de los grupos respecto a
la media general. Si se divide por a-1 se obtiene otra estimacin
de la varianza de x (S2 entre )
suma de cuadrados dentro de grupos (SC dentro) es la suma
de los cuadrados de los desvos de las observaciones respecto a
(xij xi)2
la media de su respectivo grupo. Al dividirla por n-a se obtiene una
tercera estimacin de la varianza de x (S2 dentro)

Debe tenerse en cuenta que las estimaciones S 2 entre y S2 dentro son


independientes entre s, pero si bien S2 dentro es siempre un estimador
insesgado, S 2 entre solamente lo ser si la Ho es verdadera, es decir si las
medias son iguales.

El test se reduce por lo tanto a un ensayo de igualdad de varianzas

Fexperimental = S2 entre / S2 dentro

Se compara este Fexperimental con el F tabulado con (1-1) y (2-1) grados de


libertad. Si Fexperimental > F tabulado se rechaza Ho, lo que implica que hay diferencias
estadsticamente significativas entre las medias de los grupos.

Fuente: http://www.fvet.edu.uy/estadis/anova.htm

Utilizando el ejemplo de la Tabla 1:

xij

TABLA 1 PESO DE LOS PEPINOS EN COSECHAS CON DIFERENTES ABONOS xij


N Peso (g) de los pepinos Peso (g) de los pepinos Peso (g) de los
pepino bajo fertilizante quimico bajo abono verde pepinos bajo compost
1 300 350 360
2 310 345 365
3 320 350 360
4 295 350 365
5 300 350 xij 355
J=10
6 325 345 360
7 290 345 350
8 310 340 355
9 300 350 360
10 320 340 365
( i=1) ( i=2) ( i=3)

( 0)

i= tratamientos o niveles del factor (en este caso 3)


j= datos de cada tratamiento (en este caso hay 10 datos en cada tratamiento o
nivel)
Fuente: http://www.fvet.edu.uy/estadis/anova.htm

CUADRO 2 RESUMEN DE LAS FUENTES DE VARIACIN, VARIANZAS Y


GRADOS DE LIBERTAD EN UN ANOVA
MEDIA DE
FUENTE DE SUMA DE GRADOS DE
CUADRADOS Fcalculado
VARIACIN CUADRADOS (SC) LIBERTAD (gl)
(MC)
ENTRE
SC ENTRE a - 1 (*) SC Entre / a-1 MC Entre/MC Dentro
GRUPOS
DENTRO DE
SC DENTRO na SC Dentro/ n-a
GRUPOS
TOTAL SC TOTAL n1
Fuente: http://www.fvet.edu.uy/estadis/anova.htm

Prueba de F

La prueba de F permite establecer si dos varianzas muestrales estiman


o no una misma varianza poblacional. Para ello se realiza el cociente de la
varianza muestral mayor sobre la varianza muestral menor. El valor obtenido
se compara con los valores de la distribucin F representados en una tabla de
F (Tabla 4 en la seccin de anexos) en la cual se ingresa con los grados de
libertad de la varianza del numerador (v1), los grados de libertad de la varianza
del denominador (v2) y el nivel de significancia , para obtener un F crtico. Si
el valor obtenido en el cociente de las dos varianzas (Fcalculado) es mayor
que el valor crtico obtenido en la Tabla de F (Fcrtico), se cae en la zona de
rechazo de H0, por lo que rechazo la hiptesis nula.

El cociente de variables independientes (cociente entre dos X 21 / X 22) cada una


distribuida como S2 y dividida por sus respectivos grados de libertad, se
distribuye como F (de Fisher) con 1, 2 grados de libertad

F= X21 / X22

La distribucin existe slo para los valores NO negativos de F, presenta


asimetra positiva y tiene dos parmetros :
1 grados de libertad del numerados y 2 grados de libertad del denominador
Fuente:
http://www.fvet.edu.uy/estadis/anova.htm

En el caso de la prueba de ANOVA las dos varianzas que se comparan


mediante la prueba de F son la varianza entre grupos O VARIANZA ENTRE y
la varianza intragrupos O VARIANZA DENTRO, pero como estas no se
conocen se utilizan sus estimadores muestrales S 2 dentro y S2 entre por lo tanto se
divide la 1ra entre la 2da. Si el cociente es superior al F crtico hallado en la
tabla se rechaza la hiptesis nula lo que indica que al menos una de las medias
comparadas es diferente al resto.
Para realizar un anlisis de varianza Ud. debe calcular el valor de F que
resulta de dividir las desviaciones estndar: S 2 entre y S2 dentro lo que indica
que en primer lugar hay que hallar estas dos desviaciones.
Para hallar dichas desviaciones utilice las frmulas indicadas en el
Cuadro 1 para obtener finalmente S 2 entre y S2 dentro. Luego debe realizar el
cociente S 2 entre / S2 dentro para hallar el valor de F.
Finalmente debe comparar este valor de Fcalculado con el valor de
Fcrtico obtenido en la tabla de F tal como se indica en la seccin Prueba de F.
Si el valor de Fcalculado es superior al Fcrtico hallado en la tabla se rechaza la
hiptesis nula lo que indica que al menos una de las medias comparadas es
diferente al resto.

Pruebas a posteriori

Al rechazar la hiptesis nula en un ANOVA, debe realizarse una prueba


ms, con la finalidad de determinar cuales son las medias que son diferentes
.Este tipo de pruebas se denominan pruebas a posteriori. Dentro de estas se
encuentran las pruebas de Tukey, Duncan, Diferencia Mnima Significativa,
entre otras.

Prueba de Diferencia Mnima Significativa

Es un procedimiento usado para comparar cada una de las medias de


un conjunto con un tratamiento control.

El valor de DMS (Diferencia Mnima Significativa) es igual a:

DMS = t.S2d; donde Sd2= Si2 + Si2 siendo Si2 y Si2 las varianzas
n n

estimadas de los experimentos que reciban los tratamientos i e i


respectivamente, r y ri son los nmeros de unidades experimentales que
reciben los tratamientos i e i, respectivamente, t es el valor de t de Student al
nivel de significacin escogido y con f grados de libertad asociados con la
desviacin estndar de la media.
Todas las diferencias entre las medias (que se calculan restndole la
menor media a la mayor) son comparadas con la DMS calculada. Si la
diferencia excede la DMS, se dice que las medias provienen de poblaciones
con medias distintas.
A continuacin realizaremos un ejemplo de cmo realizar una prueba de
ANOVA utilizando los datos de la Tabla 1.
En primer lugar los datos de la Tabla 1 fueron introducidos en una hoja
de clculo de EXCEL. Luego se comprob que se cumplan todas las
condiciones para poder aplicar la prueba de ANOVA.
Finalmente se procedi a realizar en la hoja de clculo todas las
operaciones necesarias.

Ejemplo
N Peso (g) pepinos Peso (g) pepinos Peso (g) pepinos
PEPINO fertilizante quimico abono verde compost
1 290 350 385
2 295 345 385
3 290 350 380
4 290 350 385
5 290 350 380
6 290 345 385
7 290 345 380
8 295 340 385
9 295 350 380
10 295 340 385
(xi x x
xo)2
(xij
xi)2S23=
6,67
0
=340.50
S21=6,6
6

(xij
xo)2
S22=16, x x
94 292 346.5 383
2550.25 2352.25 4.00
2070.25 36.00 9.00
2550.25 1806.25 4.00 2550.25
4194.504.002550.25dividido entre a-1 (3-
1)4.002550.252097.254.002550.25este valor es S2
entre4.002070.259.002070.259.002070.259.0090.2512.2520.252.2590.2512.2
590.2512.2590.2512.2520.252.2520.252.250.2542.2590.2512.250.2542.25198
0.2530.251980.2530.251560.250.251980.2530.251560.250.251980.2530.2515
60.250.251980.2530.251560.250.251980.2530.2542217.50395.00dividido entre
(n-1) x adividido entre n-a (10-3)1455.7856.43este valor es S2 totaleste valor
es S2 dentro

F=S2 entre / S2 dentro


F=2097,25/56,43
Fcalculado=
3
7
.
1
6
Fcrtico (tabla)
para (a-1) y (n-1) x a

grados de libertad y =0.05


(a-1)=(3-1)=2 grados de libertad
(n-1) x a= (10-1) 3=27 gl

Fcrtico= 18.6
(2,27,0.05)

Fcalculado > Fcrtico


Rechazo Ho
lo que significa que al menos uno de los
Fertilizantes (tratamientos) produce pepinos con
pesos distintos a los otros dos

Entonces procedo a realizar la prueba
a posteriori DMS para determinar cual o
cuales fertilizantes (tratamientos) producen pepinos
con pesos diferentes

PRUEBA a posteriori DMS

x1-x2 x1-x3 x2-x3


2
Si 4.44 4.44 4.44
Sj2 28.69 4.44 28.69
Sd2 (Si2+Sj2) 33.14 8.88 33.14
Sd 5.76 2.98 5.76
tcrit(n-1, )
tcrit(9, 0.025) 2.82
DMS=Sd x t crit 5,76 x 2,82 2,98 2,82 5,76 x 2,82
DMS (x1-x2) DMS (x1-x3) DMS (x2-x3)
Diferencia de medias 93.43 25.05 93.47
(x1-x2) 54.5 NO
(x1-x3) 91 SI
(x2-x3) 36.5 NO

Estos resultados indican que las diferencias


entre X1 y X2 y entre X2 y X3 no son
estadsticamente significativas, mientras que la diferencia entre
X1 y X3 si es estadsticamente significativa. En otras palabras,
los pepinos cultivados con fertilizantes qumicos y los
cultivados con compost no pesan lo mismo, en promedio.
Por otra parte, los pepinos cultivados con abono verde
tienen un peso promedio que es intermedio entre el de los
cultivados con fertilizantes y el de los cultivados con
compost, y no se puede diferenciar de estos.
Si observamos los valores de peso promedio en cada
tratamiento (las medias) podemos deducir que esta
diferencia consiste en que el peso promedio es mayor en
los pepinos cultivados con compost.
Conclusiones:

1.-La prueba de ANOVA indic que se rechaza la Ho, es decir, las medias
poblacionales (estimadas a travs de las medias muestrales) de los pesos de
los pepinos cultivadas bajo diferentes tratamientos (fertilizantes) no son iguales.
En otras palabras, los pepinos cultivados bajo diferentes tratamientos no tienen
el mismo peso, en promedio.

2.-La prueba a posteriori de Diferencia Mnima Significativa indic que las


medias poblacionales (estimadas por las medias muestrales) de peso de
pepinos que son diferentes son X1 y X3: peso promedio de pepinos cultivados
con fertilizantes y peso promedio de pepinos cultivados con compost, es decir,
los pepinos cultivados con fertilizantes y compost no tienen el mismo peso
promedio. Por otra parte, el peso de los pepinos cultivados con abono verde no
se puede diferenciar estadsticamente del de los cultivados con fertilizantes ni
del de los cultivados con compost, lo que permite suponer que el valor se
encuentra entre estos dos valores.
3.-La observacin de los valores promedio de peso de los pepinos cultivados
con fertilizantes y con compost, indica que la diferencia entre ambos se debe a
que los pepinos cultivados con compost tienen un mayor peso promedio que
los pepinos cultivados con fertilizantes.

4.- Esta experiencia indica que en este caso particular, es preferible cultivar los
pepinos con compost que con fertilizantes debido a que as se obtienen
pepinos de mayor peso. Haciendo eso adems estaramos obteniendo una
ganancia extra ya que se sabe que al cultivar con compost se minimiza la
degradacin de suelos y aguas y la afectacin negativa de personas, animales,
plantas y otros seres vivos que ocurre por el uso de fertilizantes.

Actividad individual

Seale en cual de estos casos podra utilizar un ANOVA y explique por que.
Tome en cuenta el tipo de variable para esta consideracin.

1) Caso: estudio de las cosechas de tomate en distintas localidades. Aunque es


la misma especie en las tres localidades en cada una hay variaciones en el
tamao del fruto.

Tamao del fruto


Variedad 1 Variedad 2 Variedad 3
M1
e
d
i
a
n
o
P
e
q
u
e

o
2Grande Mediano Mediano Mediano
M3
e
d
i
a
n
o
P
e
q
u
e

o
4Grande Grande Pequeo Mediano
P5
e
q
u
e

o
M
e
d
i
a
n
o
6Mediano Grande Grande Pequeo
P7
e
q
u
e

o
P
e
q
u
e

o
87Mediano Grande Mediano Pequeo
M8
e
d
i
a
n
o
M
e
d
i
a
n
o
9Mediano Grande Mediano Pequeo
M10
e
d
i
a
n
o
M
e
d
i
a
n
o
Grande

2) Caso: estudio del tipo de suelo ms adecuado para el establecimiento de un


vivero para la produccin de plantas para la reforestacin.

Altura (cm) de la planta


S
u
e
l
o

t
i
p
o

2
S
u
e
l
o

t
i
p
o

3
1Suelo tipo 1 50 66 50
2 55 63 55
3 54 65 52
4 50 66 50
5 53 64 51
6 52 65 49
7 57 60 50
87 54 63 48
8 53 66 51
9 55 64 50
10 53 68 49

Actividad grupal

En grupos de 3 realice una estimacin de la cantidad de desechos


slidos generados en tres localidades diferentes. El procedimiento a realizar es
el siguiente: seleccione en cada localidad 15 viviendas similares. En cada
vivienda selecciones una bolsa plstica tipo supermercado o abasto y
psela. Al final de la experiencia debe tener 15 valores de peso de desechos,
cada uno correspondiente a una bolsa. En cada vivienda y a una multiplique el
valor del peso de una bolsa de desechos por el nmero total de desechos por
el nmero total de bolsas de desechos generadas en un da (la familia de esa
vivienda puede decirle cuantas bolsas de desecho se generan en esa
vivienda).
Finalmente una vez realizadas la experiencia en las 3 comunidades Ud.
puede elaborar una tabla as:

Peso (kg) de desechos generado por da


Localidad 1 Localidad 2 Localidad 3
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15

Con estos datos verifique las condiciones para la aplicacin de una


prueba de ANOVA y en caso que estas condiciones se cumplan aplique la
prueba y explique los resultados.

BIBLIOGRAFA

BSICA

Chacn, F. 2000. Diseo y anlisis de experimentos. UCV-Vicerrectorado


Acadmico. Venezuela.
Machi, R. 2003. Introduccin a la Estadstica en Ciencias de la Salud. Editorial
Mdica Panamericana. Espaa.

Sokal, R. y J. Rohlf. 1980. Introduccin a la Bioestadstica. Editorial Revert


S.A. Espaa.

PGINAS WEB:

http://www.dim.uchile.cl/doc/MA34B/tablas_esta.pdf
http://www.fvet.edu.uy/estadis/anova.htm
http://www.seh-lelha.org/intervalref.htm
http://www.seh-lelha.org/noparame.htm
http://descartes.cnice.mecd.es/Bach_HCS_2/distribuciones_probabilidad/aplic_normal.
htm
http://www.e-
biometria.com/ebiometria/conceptos_basicos/ventajas_y_limitaciones_anova.htm

CAPITULO IV REGRESIN Y CORRELACIN


Objetivo:
Establece la relacin que existe y la forma o la ecuacin mediante la cual se
relacionan dos variables

Tema 8 REGRESION: Estimar una variable a partir de otra.

COMPETENCIA A LOGRAR:

Conoce las tcnicas para la formulacin de las rectas de regresin


Formulas rectas de regresin para datos agrupados y datos no
agrupados
Predice valores que asumir una variable respecto de otra

CONTENIDOS:

1. REGRESIN

Que es Regresin?

El anlisis de regresin se utiliza con el propsito de predecir el


comportamiento de una variable respecto de otra. El objetivo del anlisis de
regresin es formular un modelo o ecuacin que nos permita predecir el valor
de la variable dependiente o de respuesta a partir de los valores de una
variable independiente.

2. CURVA DE AJUSTE
Segn SCHILLER 2000, con frecuencia, en la prctica se encuentra que existe
una relacin entre dos o mas variables y uno desea expresar esta relacin de
manera matemtica, planteando una ecuacin que conecte las variables.

Para realizar esto, podemos ejecutar varios pasos:

Primero recolectar los datos y mostrando los valores correspondiente a


cada variable x, y

Segundo representar en un sistema de coordenadas rectangulares los


valores de los pares ordenados (x, y). Por ejemplo representamos los
valores de las variables peso(x), altura (y). De esta representacin
obtenemos un conjunto de puntos que denominan Diagrama de
dispersin o Nubes de puntos.

Tercero a partir del diagrama de dispersin nube de puntos es posible


visualizar una curva que se aproxima a los datos a la cual denominamos
Curva de aproximacin. Cuando el diagrama de dispersin muestra una
aproximacin a una lnea recta se dice que existe una relacin lineal
entre las variables. Cuando no presenta una aproximacin a una
relacin lineal se dice que presenta una relacin no lineal

Cuarto a partir de la relacin existente y de los datos podemos encontrar


las ecuaciones de curvas de aproximacin que se ajusten al conjunto de
datos que se llama Curva de ajuste.

Las ecuaciones de las curvas de ajustes ms importantes son:



Ecuacin de la lnea recta y = a + bx

Ecuacin de la parbola y = a + bx + cx2

Ecuacin exponencial y = abx

Dentro de las ecuaciones de las curvas de ajustes ms usadas tenemos la


lnea recta, la cual llamaremos recta de regresin

Ecuacin de la lnea recta: aqu se nos presentan dos casos:

1. Primer caso: Cuando y es la variable dependiente o valor de la variable


a estimar. Con lo cual x ser la variable independiente y = a
+ bx

2. Segundo caso: Cuando x es la variable dependiente o valor de la


variable a estimar. Con lo cual y ser la variable independiente
x = a + by

En cuanto a y b son los parmetros o valores indeterminados dentro de una


ecuacin, siendo a la interseccin con el eje de las ordenadas mientras que b
ser la pendiente de la recta la cual representa el incremento que sufre la una
variable con cada unidad de incremento de la otra.
Cuando b: (+) el incremento o pendiente ser positivo
Cuando b: (-) el incremento o pendiente ser negativo

Recta con pendiente positiva

Recta con pendiente negativa

3. Aplicacin del Mtodo de los mnimos cuadrados para la recta de


regresin: caso de datos no agrupados

Segn BERENSON 2001, para poder formular la ecuacin de regresin es


necesario determinar los coeficientes a y b de manera de encontrar la recta que
mejor ajusta los datos o que la diferencia entre las variables se hace mnima.
La que minimiza la diferencia se conoce como el mtodo de los mnimos
cuadrados tcnica matemtica que nos ayuda a determinar los valores de a y b

SOTO 1982, se basa en la segunda propiedad de la media aritmtica la cual


dice: La suma de los cuadrados de las desviaciones respecto a la media
aritmtica es siempre un valor mnimo

El mtodo consiste determinar dentro de la infinidad de lneas que existen en


un plano, aquella lnea recta optima o promedio que pase lo mas cerca posible
de todos los puntos originados al representar las dos variables consideradas
(nubes de puntos)

Nube de puntos
. . .
. .. . .
. . . . . Recta ptima o de ajuste
. .. .
Valores de y

Valores de x

3.1. Rectas de regresin de y en x


Esta recta nos permite estimar valores de la variable y conocidos los de la
variable x a travs de la siguiente ecuacin.

y = a + bx

Determinacin de los valores a y b

Partimos de la ecuacin y = a + bx, por existir dos parmetros tendremos que


generar dos ecuaciones:
La primera se obtiene multiplicando la ecuacin por (Sumatoria) de lo cual
obtenemos:

Donde , pues segn la propiedad de las sumatorias: La sumatoria de una


constante es igual a N veces la constante

de lo cual se obtiene

La segunda ecuacin se obtiene multiplicando la ecuacin original por

Agrupamos las ecuaciones resultantes y tenemos:

Como podemos ver tenemos dos ecuaciones con dos incgnitas por lo cual
podemos aplicar cualquiera de los mtodos conocidos, o podemos usar las
siguientes formulas

axy= Parmetro a de la recta de regresin de y en x

bxy= Parmetro b de la recta de regresin de x en y

ayx =

byx =

3.2. Calculo de la recta de regresin de x en y

Esta recta nos permite estimar valores de la variable x conocidos los de la


variable y a travs de la siguiente ecuacin.

x = a + by

Determinacin de los valores a y b

Partimos de la ecuacin x= a + by, por existir dos parmetros tendremos que


generar dos ecuaciones:
La primera se obtiene multiplicando la ecuacin por de lo cual obtenemos:

Donde de los cual se obtiene

La segunda ecuacin se obtiene multiplicando la ecuacin original por

Agrupamos las ecuaciones resultantes y tenemos:

Como podemos ver tenemos dos ecuaciones con dos incgnitas por lo cual
podemos aplicar cualquiera de los mtodo conocidos, o podemos usar las
siguientes formulas

axy= Parmetro a de la recta de regresin de x en y

bxy= Parmetro b de la recta de regresin de x en y

ayx =

byx =

3.3. Clculo del error de estimacin

Para el calculo del error de estimacin de la recta de regresin x en y

Exy =

Ex.y = Error de estimacin de la recta de regresin de x en y


Xo= Valores observados de la variable x
Xc= Valores calculados de la variable x
N = N de pares de variables
Otro mtodo

Exy =

Podemos calcular el error de estimacin si conocemos el coeficiente de


correlacin.

Exy = Sx

Calculos del error de estimacin de y en x

Exy =
Eyx = Error de estimacin de la recta de regresin de y en x
Yo= Valores observados de la variable y
Yc= Valores calculados de la variable y
N = N de pares de variables
Otro mtodo

Eyx =

Podemos calcular el error de estimacin si conocemos el coeficiente de


correlacin.

Eyx = Sy

3.4. Coeficiente de Regresin

Se denominan de esta manera a los parmetros b de cada una de las rectas


de regresin, es decir bxy y byx los cuales nos indica el numero unidades
que se modifica la variable dependiente por cada una de variacin en la
variable independiente.

r=

4. Rectas de regresin para datos agrupados en clases

4.1. Recta de regresin de x en y

x = a + by
Se usar una formula basada en el Coeficiente de Correlacin r de manera de
obtener mayor utilidad de la tabla de doble entrada

X X = (Y Y)
Donde
X = Es la variable dependiente
X = Es la media aritmtica
r = Coeficiente de correlacin
Sx y Sy son la Desviacin Estndar de cada una de las variables

Para el calculo de la media aritmtica usaremos la formula

X = Xa + . Icx
Donde Xa es el valor de una media arbitraria la asumir el valor del punto
medio donde la diferencia o desvi unitario sea cero. Ic x , Icy son los intervalos
de clase de cada variable

Y = Ya + . Icy

Para el calculo de la Sx
Sx = Icx ( )

Para el calculo Sy

Sy = Icy ( )

Para el calculo de la recta de regresin de y en x y = a + bx

Y Y = (X X)
Y procederemos igual sustituyendo los valores respectivos
5. Actividades:

5.1. Individuales:
1. Lea detenidamente la gua y consulte otra Bibliografa recomendada
2. Escriba un ensayo sobre la correlacin y su utilidad. Consulte la
bibliografa disponible e Internet.
3. Dentro de su familia mas cercana recopile los datos de altura y peso y
calcule la recta de regresin respectiva.

5.2. Grupal Cooperativo

Los siguientes datos corresponden a las precipitacin promedio mensual


y las temperaturas promedio mensual en Caracas durante algunos
meses 2004.
mm. T
75 20
90 21
70 24
103 24,5
178 25
215 26
345 25,5

Calcule: La ecuacin de las rectas de regresin, Coeficiente de


regresin, Error de estimacin.

Los siguientes datos corresponden a las superficies plantadas y su


rendimiento de la produccin agrcola en Venezuela para 1999.
Rubro Superficie (Ha) Rendimiento (Kg/Ha)
Arroz 149.480 4.482
Sorgo 163.232 2.461
Coco 18.046 5.795
Pltano 64.744 8.509
Ajo 12.560 7.189
Tomate 9.147 20.538
Mango 8.650 15.050
Calcule: Calcule: La ecuacin de las rectas de regresin, Coeficiente de
regresin, Error de estimacin.

6. BIBLIOGRAFA

BSICA

BERENSON, M. LEVINE, D. & KREHBIEL, T. Estadstica para Administracin. 2da


Ed. Pearson Prentice Hall, Mxico.734 p.

FUENLABRADA, IRMA. 2002. Probabilidad y Estadstica. 1ra. Ed. McGraw Hill,


Mxico 399 p.

SOTO, ARMANDO. 1982. Iniciacin a la Estadstica. Editorial Jos Marti. Caracas


395 p.

SPIEGEL, M. SCHILLER, J. & SRINIVASAN, R. 2001. Probabilidad y Estadstica.


2da. Ed. McGraw Hill, Bogota 399 p.

Tema 9 CORRELACION: Nivel de relacin entre las variables.

COMPETENCIA A LOGRAR:

Conoce las tcnicas para formular y calcular el Coeficiente de


Correlacin entre dos variables

Formula y calcula el coeficiente de Correlacin para datos agrupados y


datos no agrupados.

Establece la relacin o correlacin existente entre dos variables


consideradas.

CONTENIDOS:

1. CORRELACION

Qu es Correlacin?

Segn SOTO, 1982, es el grado de relacin, asociacin o dependencia que


pueda existir entre dos o ms variables.
Es frecuente encontrar fenmenos ntimamente ligados variables
relacionadas con alguna forma de dependencia tales como:

Entre el tiempo que transcurre para que una persona se adapte a


la oscuridad y el nivel de azcar en su sangre.
Entre el peso de una persona, su edad y hbitos que lo
predisponen a contraer una enfermedad.
Entre la longitud de la circunferencia y sus radios, cuya relacin
se expresa mediante la ecuacin C= 2 r.

Esta relacin o dependencia que es de naturaleza cuantitativa puede


deberse a diferentes tipos de factores.

2. Tipos de relacin entre variables:

a. Relacin causal

Cuando los movimientos que experimenta una de las variables


dependen de una causa o son efecto del movimiento de la otra
variable.
Por ejemplo al presentarse una aumento de nutrientes en una
masa de agua aumenta las poblaciones de las especies.
De igual manera al aumentar la poblacin de depredadores de
una especie el aumento de la especie depredada se ve limitado.

b. Relacin circunstancial

En otros casos tenemos que la relacin entre las variables


depende de una circunstancia comn, por ejemplo un proceso
social.
Por ejemplo las edades de los contrayentes en el matrimonio (a
mayor edad el hombre y a menor edad la mujer), no son un efecto
de la variacin de la edad del esposo, sino que la correlacin es
debida a una proceso social que tiene por tendencia el casarse en
edades con diferencias no muy significativas.

c. Relacin casustica o aleatoria

Cuando la relacin entre las variables se deben al azar,


casualidades o simples coincidencias.
Por ejemplo es una relacin casual que al aumentar la produccin
de hierro en el pas aumente tambin la cantidad de accidentes
de transito en todo el pas. De esto podemos concluir que no hay
lgica alguna en la asociacin de los hechos.

Hay que ser muy cuidadoso en la seleccin adecuada de las variables que
tratemos de relacionar, para evitar un mal uso de los tipos de relaciones,
descartando aquellas que se presentan contrarias al sentido comn segn
el nivel de nuestro conocimiento de la realidad.
El estudio de la correlacin tiene la importancia de permitirnos sintetizar el
nivel relacin en un solo valor: El Coeficiente de Correlacin.

Tres son los aspectos principales en el estudio de dos o ms variables:


a. La relacin o dependencia que pueda existir entre las variables en
estudio.
b. La direccin o tipo de relacin que hay entre ellas.
c. El nivel de intensidad entre ellas

3. Clasificacin de la Correlacin

De acuerdo al nmero de variables consideradas

a. Correlacin Simple: Aquella que considera la posible relacin


entre dos variables.

b. Correlacin mltiple: Aquella que considera la posible relacin


entre mas de dos variables.

De acuerdo a la tendencia de los datos de las variables bajo estudio

a. Correlacin rectilnea: Cuando los datos de las


variables consideradas presentan una tendencia de una lnea
recta.

b. Correlacin curvilnea: Cuando los datos de las


variables investigadas tiene una tendencia distinta a una lnea
recta.
4. Correlacin simple y rectilnea

Es aquella que estudia la relacin, asociacin o de pendencia entre dos


variables cuyas magnitudes presentan una tendencia en forma de una
lnea recta.

5. Coeficiente de Correlacin ( r ) para datos no agrupados

Se define como el indicador cuantitativo de tipo adimensional el cual no


indica el tipo y nivel de relacin entre dos mas variables.

La formula del Coeficiente de correlacin simple y rectilnea para datos


no agrupados.

Mtodo de Pearson:

r=

donde dx = x X ; dy= y Y

Otra manera de expresar la formula del Coeficiente de correlacin segn


el metodo de Pearson seria:
r=
Donde N= numero de pares variables
Sx= Desviacin Estndar de los datos de la variable
x
Sy= Desviacin Estndar de los datos de la variable
y

Covarianza: Se define como media aritmtica del producto de las desviaciones


de cada variable con respecto a sus respectivas medias X Y, y que
expresaremos mediante el smbolo Sxy

Sxy=
Con lo cual pudiramos construir una nueva expresin de la formula de
Pearson

r=

Tipos de Correlacin en cuanto al signo del Coeficiente r

Correlacin Positiva o directamente proporcional


Cuando r= (+ ) nos indica que existe una relacin directa, esto quiere
decir que al modificarse una variable en una direccin la otra se modifica
en la misma direccin.
Por ejemplo al aumentar la altura mayor numero del calzado

Correlacin Negativa o inversamente proporcional


Cuando r= ( - ) nos indica que existe una relacin inversa, esto quiere
decir que al modificarse una variable en una direccin la otra se modifica
en la direccin opuesta.
Por ejemplo al aumentar la altura desde la superficie terrestre menor es
la temperatura del ambiente

Incorrelacin
Cuando el Coeficiente de Correlacin es igual a cero r= 0 se dice que no
existe relacin asociacin alguna entre las dos variables consideradas.
Es decir son carente de relacin o dependencia lineal.

Limites de Variacin del Coeficiente de Correlacin

El coeficiente de correlacin r puede variar entre (+1) y (-1)


o sea

Cuando r= -1 se dice que existe una correlacin negativa


perfecta o inversamente proporcional; o sea al cambiar una
variable en un sentido la otra la hace en el sentido contrario.

Cuando r= +1 se dice que tiene una correlacin positiva perfecta


directamente proporcional; o sea al cambiar una variable en un
sentido la otra cambia en el mismo sentido.
Cuando r= 0 se dice que las variables son incorrelacionadas
con ausencia total de relacin, asociacin o dependencia entre
ellas.

El nivel de intensidad del Coeficiente de correlacin ser ms fuerte, mientras


mas se aleje r del valor cero
De lo anterior y a escala general podemos decir:

Si r > 0,30 el coeficiente de Correlacin es dbil

Si 0,30< r 0,50 el coeficiente de Correlacin es mediano

Si 0,50< r 0,80 el coeficiente de Correlacin es apreciable

Si 0,80< r 1,00 el coeficiente de Correlacin es fuerte

Ejemplo de aplicacin:

De la evaluacin de las plantas de un sector se encontr cinco especies


de rboles (Saman, Caobas, Cedros, Puy y Zapatero) se a cada
ejemplar de cada una de las especies se calculo la altura y su dimetro
a 1 metro del suelo resultando los siguientes datos promedio para cada
especie.

Especie Altura promedio Dimetro


m m
Saman 19 1,35
Caobas 15 0.85
Cedro 18 0,95
Puy 13 0,75
Zapatero 21 0,50

Se desea conocer:
a. Coeficiente de Correlacin por el mtodo de Pearson
b. Coeficiente de correlacin mediante el uso de las Desviaciones
Estndar
c. Coeficiente de correlacin mediante el uso de la Covarianza
d. Interpretar el coeficiente obtenido.

Solucin:

a. Calculo del Coeficiente de Correlacin mediante uso del mtodo de Pearson


m m
Altura Dimetro dx dy
X Y X-X Y-Y dxdy d 2x d2y
19 1,35 1,8 0,47 0,846 3,240 0,220
15 0.85 - 2,20 0,00 0,000 4,840 0,000
18 0,95 0,80 0,07 0,056 0,005 0,003
13 0,75 -4,20 - 0,13 0,546 0,017 0,298
21 0,50 2,80 - 0,38 - 1,064 0,144 1,132
86 4,40 0,384

Calculo de las medias aritmticas

X = ; X = 17,20 Y = ; Y = 0,88

Aplicamos la formula de Pearson para el calculo del Coeficiente de Correlacin

r= ; r = ; r = 0,104

b. Calculo del Coeficiente mediante el uso de las Desviaciones Estndar

Calculamos las Desviaciones estndar S para cada variable

Sx = ; Sx = ; Sx = ; Sx = 1,28

Sy = ; Sy = ; Sy = ; Sy= 0,575

r= ; r= ; r = 0,104

c. Determinamos r en funcin de la Covarianza

Determinamos la Covarianza

Sxy= ; Sxy= ; Sxy = 0,0768

r= ; r = ; r = 0,104

d. Como se observa, por cualquiera de las modalidades del mtodo Pearson el


resultado es el mismo r = + 0,104 lo que indicara una dbil (muy dbil)
correlacin positiva o directamente proporcional entre la altura de los
rboles con su dimetro a 1 metro del suelo.

a. Coeficiente de Correlacin ( r ) para datos agrupados

Segn Soto 1982, para determinar el coeficiente de correlacin de


datos agrupados es conveniente construir la Tabla de Correlacion de
doble entrada, denominada as por presentar una entrada para la
variable x y otra para la variable y.
La variable x se ubica en forma horizontal y la variable de manera
vertical en cada caso se incrementan los valores desde el origen hacia
los extremos de cada eje.

En la primera fila horizontal se colocar cada clase de la variable x con


su respectivo punto medio entre parntesis ordenadas de menor a
mayor ( hacia el extremo)
El la primera columna se colocar cada una de las clases de la variable
y con sus respectivos puntos medios.

La formula para calcular el Coeficiente de Correlacin r para datos


agrupados es:

r=

Para obtener los elementos faltantes de la formula tenemos que


construir 6 filas y 6 columnas adicionales a la tabla de doble entrada

En el mismo eje de la variable x (eje horizontal) localizaremos a fy , dy,


d2y, fydy, fyd2y,

En el mismo eje de la variable y (eje vertical) localizaremos a fx , dx, d 2x,


fxdx, fxd2x,

fx = Frecuencia absoluta de la variable x

dx = diferencia respecto a la media (desvos unitarios) de la variable x

d2x = el cuadrado de la diferencia respecto a la media (desvos unitarios)


de la variable x
fydy = el resultado del producto entre fx y dx
fxd2x = el resultado del producto entre fx y d2x

= Sumando de los valores localizado en las cedillas (cuadros) pequeos


(Estos valores son el producto entre la f por dx y dy manteniendo el
signo resultante.

7. ACTIVIDADES PROPUESTAS:

Individual:

Lea con cuidado los contenidos presentados con relacin a la


correlacin y el calculo de su coeficiente
Escriba un ensayo sobre la correlacin y su utilidad. Consulte la
bibliografa disponible e Internet.
Dentro de su familia ms cercana recopile los datos de altura y peso
y calcule la ecuacin recta de regresin respectiva.

Grupal Cooperativo:
Los siguientes datos corresponden a las precipitacin promedio
mensual y las temperaturas promedio mensual en Caracas durante
algunos meses 2004.

mm. T
76 20
91 21
71 24
104 24,5
178 25
215 26
345 25,5

Calcule: Coeficiente de Correlacin por el mtodo de Pearson,


Coeficiente de correlacin mediante el uso de las Desviaciones
Estndar, Coeficiente de correlacin mediante el uso de la Covarianza,
Interprete el coeficiente de Correlacin obtenido.

Los siguientes datos corresponden a las superficies plantadas y su


rendimiento de la produccin agrcola en Venezuela para 1999.

Rubro Superficie (Ha) Rendimiento (Kg./Ha)


Arroz 149.480 4.482
Sorgo 163.232 2.461
Coco 18.046 5.795
Pltano 64.744 8.509
Ajo 12.560 7.189
Tomate 9.147 20.538
Mango 8.650 15.050

Calcule: Coeficiente de Correlacin por el mtodo de Pearson,


Coeficiente de correlacin mediante el uso de las Desviaciones
Estndar, Coeficiente de correlacin mediante el uso de la Covarianza,
Interprete el coeficiente de Correlacin obtenido.

a. BIBLIOGRAFA

BSICA

BERENSON, M. LEVINE, D. & KREHBIEL, T. Estadstica para Administracin. 2da


Ed. Pearson Prentice Hall, Mxico.734 p.

FUENLABRADA, IRMA. 2002. Probabilidad y Estadstica. 1ra. Ed. McGraw Hill,


Mxico 399 p.

SOTO, ARMANDO. 1982. Iniciacin a la Estadstica. Editorial Jos Marti. Caracas


395 p.

SPIEGEL, M. SCHILLER, J. & SRINIVASAN, R. 2001. Probabilidad y Estadstica.


2da. Ed. McGraw Hill, Bogota 399 p.
CAPITULO V PRUEBAS NO PARAMETRICAS
Objetivo:
Suministrar herramientas prcticas para el tratamientos de datos no numricos

Tema 10 PRUEBAS NO PARAMETRICAS

COMPETENCIA A LOGRAR:

Conoce las pruebas no paramtricas


Aplica las pruebas y mtodos para facilitar el tratamiento de datos no
numricos.
Pr..

CONTENIDOS:

2. La prueba Ho del Signo


Es una prueba sencilla para el caso de muestras pareadas. Esta prueba
consiste en tomar la diferencia entre los datos pareados y escribir
solamente el signo de la diferencia.
Ejemplo.

3. La prueba U de Mann- Whitney


Esta prueba es til para el caso muestras con pequeas diferencias y para
decidir si dos muestras provienen o no de una misma poblacion. Es posible
que deseamos decidir si existe o n una diferencia entre las muestras
pareadas. Para desarrollar esta prueba tenemos que seguir tres pasos.

Paso 1: Organice todos los valores muestrales

Paso 2: Encuentre la suma de los ordenes para cada una de las muestras

Paso 3: Prueba la diferencia entre las sumas de los ordenes

4. La prueba H Kruskal Wallis

La prueba H Kruskal Wallis es una generalizacin de la prueba U para K


muestras. Esta prueba ofrece un mtodos no parametrito en el Anlisis de
varianza para clasificacin simples o experimentos de el valor dado el
estadstico

5. La prueba H corregida para empates

6. La prueba corridas para aleatoriedad

7. Otras aplicaciones

Вам также может понравиться