Вы находитесь на странице: 1из 11
Página 1 de 11

Página 1 de 11

CAPÍTULO 1: ESTADÍSTICA Y MÉTODO CIENTÍFICO

1 de 11 CAPÍTULO 1: ESTADÍSTICA Y MÉTODO CIENTÍFICO Podemos definir Estadística como la ciencia de

Podemos definir Estadística como la ciencia de los datos. La palabra ciencia viene del latín “scientia” que significa conocimiento. El método científico es un conjunto de principios y procedimientos para la búsqueda sistemática del conocimiento.

El método científico está compuesto por los siguientes pasos:

1. Formula una teoría (problema).

2. Recoger datos para probar la teoría.

3. Analizar los datos.

4. Interpretar los resultados y tomar una decisión.

El método científico es un procedimiento iterativo de aprendizaje. No podemos tener certeza de la veracidad de las teorías que probemos usando el método científico, eso es inherente a la ciencia. La ciencia está, por lo tanto, todo el tiempo revisando sus teorías.

La Estadística no es un conjunto de diferentes técnicas aisladas unas de otras, sino que la Estadística, en conjunto con el método científico, nos entrega un procedimiento analítico para tomar decisiones.

Definiciones humorísticas de la estadística:

Se dice, por ejemplo, que si una persona gana un millón de pesos y otra nada, “la estadística” establece que en promedio las dos personas han ganado medio millón de pesos.

La estadística dice que si una persona pone la cabeza en el congelador y los pies en el horno, su temperatura media será normal.

En la unidad introductoria del sitio web http://dta.utalca.cl/estadistica/ encontraran un artículo que define a la Estadística como “la ciencia de la recolección y análisis de datos para la toma de decisiones” 1 . Este artículo es una muy buena introducción general al quehacer de la Estadística.

1 Ferreiro, O. y Fernández de la Reguera, P. (1988) “La estadística, una ciencia en la controversia”. Revista Universitaria 25: 13-17.

Página 2 de 11

Página 2 de 11

El lenguaje de toma de decisiones en Estadística

Constantemente buscamos información para tomar decisiones. Al levantarnos en la mañana observamos como está el tiempo para decidir como vestirnos o averiguamos si va a llover para decidir si llevamos paraguas, etc. Inconscientemente aplicamos la lógica estadística para tomar ese tipo de decisiones. Además veremos como podemos usar la estadística para situaciones tan diversas como:

Analizar si el tabaquismo se asocia al cáncer al pulmón.

Analizar si la reforma educacional mejoró la calidad de la educación en Chile.

Predecir los resultados de las próximas elecciones.

Predecir si ocurrirá una situación de emergencia ambiental en Santiago.

Aprender estadística es como aprender un nuevo idioma.

Definiciones:

Una población es el grupo de objetos o individuos bajo estudio, acerca de los cuales queremos obtener información.

Una muestra es una parte de la población de la cual se obtiene información.

Inferencia estadística es el proceso de sacar conclusiones acerca de una población basados en información de una muestra de esa población.

¿Debo tomar Aspirina o Migranol para el dolor de cabeza?

Laboratorios Bayer me dice que tome Aspirina Existe teoría (antigua) de que lo mejor es Aspirina

Laboratorios Migra me dice que tome Migranol Existe teoría (nueva) de que lo mejor es Migranol

Tenemos dos teorías que compiten.

En estadística las vamos a llamar HIPOTESIS.

Definiciones:

La hipótesis nula, denotada por

de la población, lo aceptado hasta el momento.

H

0 , es el “status quo”, lo convencional, lo que sabemos

La hipótesis alternativa, denotada por

cambio, es lo que el investigador espera que sea cierto.

H

1 , es una alternativa a la hipótesis nula, implica

Página 3 de 11

Página 3 de 11

H

H

0

1

:

El nuevo medicamento es

tan

efectivo como el antiguo

:

El nuevo medicamento es más efectivo que el antiguo

Pensemos

Formule la hipótesis nula y alternativa de los siguientes estudios:

El Mercurio, 30 de Mayo de 2003

El Mercurio, 30 de Mayo de 2003 Fumar perjudica la memoria Los fumadores excesivos mayores de
Fumar perjudica la memoria Los fumadores excesivos mayores de 43 años podrían tener problemas de

Fumar perjudica la memoria Los fumadores excesivos mayores de 43 años podrían tener problemas de memoria a causa de ese hábito, según un estudio británico. El consumo habitual de cigarrillos, a un promedio de 20 por día, se ha vinculado con un rápido declive de la memoria y de la capacidad visual, aunque en un nivel bajo, según el estudio.

El Mercurio, 7 de Agosto de 2003

El Mercurio, 7 de Agosto de 2003 Gaseosas dañan los dientes Muchas bebidas gaseosas tienen altos
Gaseosas dañan los dientes Muchas bebidas gaseosas tienen altos niveles de acidez, lo que puede

Gaseosas dañan los dientes Muchas bebidas gaseosas tienen altos niveles de acidez, lo que puede dañar el esmalte de los dientes y hacerlos más sensibles, débiles y vulnerables ante las caries. "Como no podemos convencer a la gente que deje de tomar estos productos, debemos apoyar investigaciones para encontrar fórmulas más seguras", dijo Liz Kay, miembro de la Asociación Odontológica Británica.

El Mercurio, 6 de Agosto de 2003

El Mercurio, 6 de Agosto de 2003 Vitamina C previene úlceras y cáncer Mientras menores son
Vitamina C previene úlceras y cáncer Mientras menores son los niveles de vitamina C en

Vitamina C previene úlceras y cáncer Mientras menores son los niveles de vitamina C en la sangre, mayor es la posibilidad de tener úlceras y cáncer en el estómago. Así se desprende de una investigación estadounidense, en la cual se recomienda aumentar el consumo de esta vitamina - que se encuentra en cítricos o el té verde, entre otros alimentos- , ya que interactúa con la bacteria Helicobacter Pilory, causante de esas enfermedades.

Durante el curso revisaremos los pasos para tomar una decisión en estadística, por ahora los podemos resumir en:

1. Tenemos una hipótesis, que la asumimos cierta.

2. Obtenemos datos de un experimento relativo a la hipótesis.

3. Tomamos una decisión acerca de la hipótesis a partir de cuán probable son esos datos proviniendo de la hipótesis.

Página 4 de 11

Página 4 de 11

Definición:

Los datos que obtenemos de una muestra serán estadísticamente significativos, si las

0 es verdadera. Si los datos son

estadísticamente significativos, entonces rechazamos

observaciones son muy poco probables si

H

H

0

.

¿Qué errores podemos cometer?

El sistema de justicia tiene como principio básico que un inculpado en un juicio debe ser considerado inocente hasta que se pruebe que es culpable. ¿Cuáles serán las hipótesis nula y alternativa en el contexto de un juicio?

El inculpado es

El inculpado es

H

0

:

H

1

:

Los abogados defensores y el fiscal presentan sus casos. El juez debe ponderar la evidencia presentada y decidir si es suficiente para declarar culpable al inculpado. Pero el sistema de justicia no es perfecto. Si el juez decide que es culpable y en realidad es inocente, ocurre un error. Si el juez decide que la duda es razonable y lo declara inocente y el inculpado era en realidad culpable, ocurre un error.

En términos estadísticos estos errores tienen nombres especiales.

Definición:

Error Tipo I: es el error que se comete cuando rechazamos la hipótesis nula (

circunstancia que es la hipótesis verdadera.

Error tipo II: es el error que se comete cuando aceptamos la hipótesis nula (

circunstancia que es la hipótesis falsa.

H

H

0

0

)

)

en

en

Pensemos

La hipótesis verdadera

Su decisión basada en los datos:

Rechazar

H

0

H

0

Verdadera

H

1

Verdadera

No rechazar

H

0

Tengan en cuenta que

Página 5 de 11

Página 5 de 11

Podemos cometer un Error Tipo I sólo si rechazamos

H

0 .

Podemos cometer un Error Tipo II sólo si no rechazamos

Ejemplo

H

0

.

Probando un nuevo medicamento:

¿Cuáles son los dos tipos que errores que se pueden cometer al decidir entre las dos hipótesis?

Error Tipo I =

Error Tipo II =

¿Cuáles son las consecuencias del error tipo I?

¿Cuáles son las consecuencias del error tipo II?

¿Cuál error es más grave desde un punto de vista ético?

Ejemplo

Probando un test o prueba para detectar el cáncer:

H

H

0

1

: El sujeto está sano

: El sujeto padece cáncer

¿Cuáles son los dos tipos que errores que se pueden cometer al decidir entre las dos hipótesis?

Error Tipo I =

Error Tipo II =

¿Cuáles son las consecuencias del error tipo I?

¿Cuáles son las consecuencias del error tipo II?

¿Cuál error es más grave desde un punto de vista ético?

Generalmente queremos proteger lo que ya conocemos reduciendo la probabilidad de cometer el Error Tipo I.

Pensemos

Pensemos Si el Error Tipo I es considerado grave, ¿por qué no hacerlo cero?
Si el Error Tipo I es considerado grave, ¿por qué no hacerlo cero?

Si el Error Tipo I es considerado grave, ¿por qué no hacerlo cero?

Página 6 de 11

Página 6 de 11

Una posible manera de no cometer el error tipo I sería no rechazar nunca la hipótesis nula. Pero si hacemos esto nunca vamos a aceptar una teoría nueva. Tenemos que correr un pequeño riesgo.

Conceptos claves:

En estadística, la probabilidad de cometer el error tipo I se llama nivel de significancia o nivel de significación y se denota por la letra griega alfa, α.

La probabilidad de cometer el error tipo II se denota por la letra griega beta, β.

α = nivel de significancia.

α = probabilidad de cometer el error tipo I.

¿De qué otra manera podemos escribir la definición de α?

β = probabilidad de cometer el error tipo II.

¿De qué otra manera podemos escribir la definición de β?

Ejemplo

Indica si son verdaderos o falsos los siguientes ítems:

Item 1: Un nivel de significación del 5% significa que, en promedio, 5 de cada 100 veces que rechacemos la hipótesis nula estaremos equivocados (verdadero/falso). Justifique.

Item 2: Un nivel de significación del 5% significa que, en promedio, 5 de cada 100 veces que la hipótesis nula es cierta la rechazaremos (verdadero/falso). Justifique.

Página 7 de 11

Página 7 de 11

Ejemplo

¿Qué hay en la bolsa? 2

Se tienen dos bolsas idénticas Bolsa A y Bolsa B. Cada bolsa contiene 20 vales. El contenido de cada bolsa es (en miles de pesos):

A
A

Bolsa A

Bolsa B

 

Número

 

Número

Valor

de vales

Valor

de vales

-1.000

1

   

10

7

10

1

20

6

20

1

30

2

30

2

40

2

40

2

50

1

50

6

60

1

60

7

   

1.000

1

B
B

Gráfico de frecuencias para Bolsa A (miles de pesos)

 

X

X

X

X

X

X

X

X

X

X

X

X

X

X

X

X

X

X

X

X

-$ 1.000

$ 10

$ 20

$ 30

$ 40

$ 50

$ 60

$ 1.000

Gráfico de frecuencias para Bolsa B (miles de pesos)

 
 

X

 

X

X

X

X

X

X

X

X

 

X

X

X

X

 

X

X

X

X

X

X

X

-$ 1.000

$ 10

$ 20

$ 30

$ 40

$ 50

$ 60

$ 1.000

BOLSA A TIENE EN TOTAL - $ 560 000

BOLSA B TIENE EN TOTAL + $ 1 890 000

2 Este ejemplo proviene del libro de Aliaga, M. Gunderson, B. (2003) Interactive Statistics, Second Edition. Prentice Hall.

Página 8 de 11

Página 8 de 11

Saquemos un vale al azar de la bolsa que nos muestran. Basándose en una observación (n=1), usted tendrá que decidir entre:

H

H

0

1

: La bolsa que me están mostrando es la Bolsa A

: La bolsa que me están mostrando es la Bolsa B

¿Cuál es el Error tipo I y Error tipo II?

¿Cómo tomamos la decisión?

Discuta con su vecino las posibles decisiones. ¿En qué situaciones sería fácil tomar una decisión?

Pensemos

 

¿Qué decisión tomaría si el vale es de $60 mil?, ¿Por qué?

¿Qué decisión tomaría si el vale es de $10 mil?, ¿Por qué?

Definición:

Una regla de decisión es una regla formal que establece cuando rechazar

H

0

, basados en

los datos.

Examinemos las proporciones en que se encuentran los vales:

Valor

Proporciones en la bolsa A

Proporciones en la bolsa B

- 1.000.000

1/20

0

10.000

7/20

1/20

20.000

6/20

1/20

30.000

2/20

2/20

40.000

2/20

2/20

50.000

1/20

6/20

60.000

1/20

7/20

1.000.000

0

1/20

Definición: La dirección del extremo corresponde a la posición de los valores que son más
Definición:
La dirección del extremo corresponde a la posición de los valores que son más probables
bajo
H
1 que bajo
H
.
0
Si los valores más grandes son más probables bajo
H
1 que bajo
H
0 , entonces la dirección
del extremo es hacia la derecha.
Página 9 de 11

Página 9 de 11

Veremos que no siempre la dirección es hacia la derecha.

Para determinar la regla de decisión usamos primero el valor más extremo.

En nuestro ejemplo es el vale de $60 mil.

Regla de decisión #1:

Rechazar

H

Rechazar

H

0

0

si el vale seleccionado es de $ 60 mil o más.

si el vale seleccionado es $ 60 mil.

A toda regla de decisión le corresponde una zona de rechazo.

Definición:

Una región de rechazo es un conjunto de valores para los cuales rechazamos

Cuando el valor no se encuentra en la región de rechazo, decimos que no podemos rechazar

H

0

.

H

0

.

Un valor crítico es el valor que marca el punto inicial del conjunto de valores de la región de rechazo.

Revisemos el ejemplo del juicio. ¿Qué significa rechazar

podemos rechazar

H

0 ?

H

0

?,

¿Qué significa que no

Definición:

Una región de rechazo se llama unilateral o de una cola si el conjunto de valores extremos están todos en una dirección, ya sea a la derecha (cola superior) o a la izquierda (cola inferior).

Una región de rechazo se llama bilateral o de dos colas si el conjunto de valores extremos están en las dos direcciones derecha e izquierda.

Calculemos ahora α y β para la regla de decisión número 1.

Tabla resumen para α y β resultantes de las tres reglas de decisión:

 

Regla de Decisión

Región de Rechazo

α

β

# 1: Rechazar

H

0

si el vale seleccionado es de

     

$60 mil o más

$60 mil o más

0,05

0,60

# 2: Rechazar

H

0

si el vale seleccionado es de

     

$50 mil o más

$50 mil o más

# 3: Rechazar

H

0

si el vale seleccionado es de

     

$40 mil o más

$40 mil o más

Página 10 de 11

Página 10 de 11

El valor-p o ¿cuán raros son los datos?

Nos vamos a enfocar en lo que los datos observados nos dicen.

Partimos con el supuesto de que

H

0

es verdadera.

Preguntamos:

Si

muestra o uno más extremo?

H

0 es verdadera (la Bolsa es la A), ¿cuán probable es obtener el valor observado en la

=> Esta probabilidad se llama valor-p.

Definición:

 

El valor-p es la probabilidad, calculada bajo el supuesto que

H

0

es verdadera, de obtener

el valor observado o uno más extremo.

 
 

Entendemos que a menor valor-p, mayor es la evidencia de los datos

   

en contra de la hipótesis nula

H

0

.

Ejemplo

Bolsa A versus Bolsa B:

Suponga que usted selecciona un vale de $30 mil y la regla de decisión es la #2. Calcule el

valor-p.

Bolsa A:

 

X

X

X

X

X

X

X

X

X

X

X

X

X

X

X

X

X

X

X

X

-$ 1.000

$ 10

$ 20

$ 30

$ 40

$ 50

$ 60

$ 1.000

Página 11 de 11

Página 11 de 11

Suponga que usted selecciona un vale de $60 mil y la regla de decisión es la #2. Calcule el valor-p.

Bolsa A:

X X X X X X X X X X X X X X X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
-$ 1.000
$ 10
$ 20
$ 30
$ 40
$ 50
$ 60
$ 1.000
Relación entre valor-p y el nivel de significancia α:
Si el valor-p es ≤ α
==>
rechazamos
H
0
Si el valor-p es > α
==>
no podemos rechazar
H
0
Pensemos
El nivel de significancia es α = 0,05, probabilidad de cometer el error Tipo I.
La regla de decisión correspondiente es: Rechazar
H
si el vale seleccionado es $60 mil o
0
más.
Se selecciona un vale y es $60 mil. Su decisión es rechazar la hipótesis nula y concluir que
los datos son estadísticamente significativos al 5%.
Al rechazar
H
,
¿Puede haber cometido un error?
0
¿Cuál es la probabilidad de haber cometido ese error?