Вы находитесь на странице: 1из 43

Inferencia

Estadistica
Ingeniera en Minas
UCN

DANIEL PINTO CARRASCO


AGOSTO 2017
Estadstica Aplicada el diseo experimental
Mtodo cientifico

o Ciencia
La ciencia trata de explicar racionalmente la naturaleza obteniendo
explicaciones sobre el funcionamiento de un sistema, o siendo capaz de predecir
los resultados del sistema (Kry y Schaub 2012).
Cience is a process for learning about nature in which competing ideas about
how the world works are measured against observations (Richard Feynman,
citado en Hilborn y Mangel 1997).
o Hiptesis:
Son las ideas o descripciones sobre cmo funciona el mundo.
Dado que nuestras descripciones del mundo son casi siempre incompletas y
nuestras medidas incorporan incertidumbre e imprecisin, necesitamos mtodos
que nos permitan evaluar el grado de concordancia entre las ideas
confrontadas y las observaciones: la estadstica (Hilborn y Mangel 1997).
Estadstica Aplicada el diseo experimental
Mtodo cientfico

Hiptesis y teoras
Una hiptesis cientfica se refiera a un mecanismo o relacin causa-efecto particular.
Una teora cientfica es mucho ms general y sinttica (Gotelli y Ellison 2004) e
implica un nivel de evidencia y soporte considerablemente mayor (Hilborn y Mangel
1997).
Mtodo cientfico
Es la tcnica que se utiliza para decidir entre las hiptesis en base a las
observaciones (Gotelli y Ellison 2004).
Azar, variacin, impredecibilidad, incertidumbre
Cualquier sistema que encontramos en la naturaleza (y cualquier faceta de la vida)
es estocstico; es decir, sistemas que no son completamente predecibles porque
incluyen procesos aleatorios que aaden un mayor o menor grado de variabilidad y,
en consecuencia, de incertidumbre en sus resultados.
Estadstica Aplicada el diseo experimental
Mtodo cientfico

Modelos
Para interpretar formalmente cualquier observacin necesitamos un modelo. Los
modelos son herramientas para evaluar las hiptesis (Hilborn y Mangel 1997). Un
modelo es una definicin abstracta de cmo creemos que nuestras observaciones
son el resultado de cantidades observables (datos) e inobservables (parmetros).
Los resultados de un sistema estocstico (la respuesta) pueden expresarse, en forma
de modelo estadstico:
= +

seal informacin estructural ruido entropa

Pero un modelo es una abstraccin y, por tanto, siempre es incorrecto (Kry 2010).
Estadstica Aplicada el diseo experimental
Mtodo cientfico

El papel de los modelos en ciencia: Dichos sobre los modelos cientficos


1. Modelling is as much art as it is science (McCullagh y Nelder)
2. All models are wrong, but some are useful (Box)
3. There has never been a straight line nor a Normal distribution in history, and yet, using
assumptions of linearity and normality allows, to a good approximation, to understand
and predict a huge number of observations (Youden)
4. Everything should be made as simple as possible, but not simpler (Einstein)
5. Nothing is gained if you replace a world that you dont understand with a model that
you dont understand (Maynard Smith)
6. It is difficult to imagine another method that so effectively fosters clear thinking about a
system than the use of a model written in the language of algebra (Kry)
Estadstica Aplicada el diseo experimental
Mtodo cientfico

Contraste de hiptesis Mtodo hipottico -


deductivo

Karl Popper (1902-1994)


Fuente: Wikimedia Commons

Fuente: Wiens (1989)


Estadstica Aplicada el diseo experimental
Mtodo cientfico
Cuatro visiones filosficas de la ciencia

Filsofo Palabra Clave Tipo de Confrontacin


Popper Falsacin de hiptesis Una nica hiptesis es refutada por confrontacin con los datos.
Paradigmas, ciencia Una nica hiptesis es utilizada hasta que exista mucha
Kuhn normal, revolucin informacin de que ha sido derrocada por una hiptesis
cientfica mejor.
Se permiten mltiples visiones del mundo de acuerdo a
diferentes opiniones de los cientficos. La confrontacin de estas
Polanyi Repblica de la ciencia
visiones y los datos son juzgadas en funcin de su (i)
verosimilitud, (ii) valor, (iii) inters.
Programa de investigacin
Lakatos Confrontacin de mltiples hiptesis con los datos como juez.
cientfica
Fuente: Hilborn y Mangel (1997)
Estadstica Aplicada el diseo experimental
Mtodo cientfico

Probabilidad y estadstica
Son ciencias que tratan sobre la incertidumbre.
Estudian las caractersticas de:
Sistemas estocsticos (descritos por los parmetros de un modelo).
Los efectos o resultados de dichos sistemas (los datos observados).
La teora probabilstica especifica los parmetros y el modelo.
La estadstica intenta inferir (deducir) las propiedades del sistema, dado el
modelo.
You can, for example, never foretell what
La inferencia estadstica tiene como
any one man will do, but you can say with
objetivo la estimacin de las propiedades
precision what an average number will be up
o caractersticas de una poblacin a partir
to. Individuals vary, but the percentages
del anlisis de una muestra de dicha
remain constant. So says the statistician.
poblacin
Sherlock Holmes. The Sign of Four.
Estadstica Aplicada el diseo experimental
Fundamentos de probabilidad
Probabilidad:
Es la frecuencia esperada con la que ocurre un evento
Midiendo la probabilidad
=nmero de resultados 0,0 1,0
nmero de ensayos

=nmero de hembras nacidas Si no hubiese incertidumbre en el


nmero de individuos nacidos resultado no hara falta ni la
probabilidad ni la estadstica
Ley de Hardy-
Weinberg
=2
=2=( )
=2
Estadstica Aplicada el diseo experimental
Fundamentos de probabilidad

Probabilidad condicional Es la probabilidad de que ocurra un evento A,


sabiendo que tambin sucede otro evento B (probabilidad de A dado B):
= () Probabilidad
() conjunta de A y B

rea de B / rea de S
B

Teorema de Bayes:
A
(|)= (|) ()
()
prior
posterior (distribucin S Conjunto de
(distribucin o
o probabilidad todos los
probabilidad
posterior) resultados
previa)
posibles
Estadstica Aplicada el diseo experimental
Fundamentos de probabilidad

Variables aleatorias y distribuciones de probabilidad


La distribucin de probabilidad de una variable aleatoria es una funcin
que asigna a cada suceso la probabilidad de que ocurra.

N(0,1)
Densidad

95%

-1.96 Z 1.96
Estadstica Aplicada el diseo experimental
Fundamentos de probabilidad

Variables aleatorias y distribuciones de probabilidad Ejemplos:


Estadstica Aplicada el diseo experimental
Fundamentos de probabilidad

La probabilidad proporciona las bases para la inferencia La inferencia


estadstica tiene como objetivo la estimacin de las propiedades o
caractersticas de un sistema (por ejemplo, una poblacin) a partir del
anlisis de una muestra.
Por inferencia podemos entender lo siguiente (Royle y Dorazio 2008):
Confrontar modelos con datos para estimar parmetros (ajustar un modelo).
Contrastar hiptesis, seleccionar modelos o evaluar modelos.
Realizar predicciones.
Proporcionar asesoramiento para muestrear procesos subyacentes de manera
eficiente.
Estadstica Aplicada el diseo experimental
Contraste de hiptesis estadsticas

Significacin estadstica y valores de P


El contraste de hiptesis se realiza mediante pruebas o test estadsticos. Cada
test produce un resultado numrico (un estadstico) y un valor de
probabilidad asociado (P).
La hiptesis nula estadstica (H0)
Establece un modelo simple que considera que las variaciones observadas en los
datos son debidas al azar y no al efecto del factor o factores estudiados.
La hiptesis alternativa (H1)
En general, como hiptesis alternativas (una o varias), se definen las que s
consideran la existencia de efectos debidos al factor o factores estudiados.
Habitualmente se utiliza el criterio P < 0,05 para rechazar H0
Pero el rechazo de H0 NO implica aceptar H1 (solo sugiere que H1 puede ser
cierta).
Estadstica Aplicada el diseo experimental
Contraste de hiptesis estadsticas

El valor de probabilidad (P, p, P-value, p-value)


Expresa la probabilidad de obtener los datos observados (y otros ms extremos pero
no observados) dado un modelo especfico (definido por un parmetro o conjunto
de parmetros ):

P ( y yobs|)
Habitualmente el modelo considerado es la hiptesis nula (H0), y por tanto, el valor de
P es la probabilidad de obtener unos datos (generalmente expresados como el
resultado de un test estadstico) al menos tan extremos como los observados:

P (datos|H0)
Tambin es frecuente utilizar
otras notaciones:
P no es la probabilidad P (datos|H0)
de que H0 sea cierta Pr (datos|H0)
Pr {datos|H0}
Estadstica Aplicada el diseo experimental
Contraste de hiptesis estadsticas
Verosimilitud (likelihood) De manera similar a un valor de P, la
verosimilitud () cuantifica la probabilidad de los datos dado un
modelo. Pero solo usa los datos observados, no los ms
extremos e inobservados. :
( | yobs ) P ( yobs | )

puede ser un escalar


es proporcional a
o un vector

La interpretacin de es opuesta (como una versin inversa) a la de P: aqul


valor que proporcione el mximo de la funcin de verosimilitud para los
datos observados es considerado la mejor estima de (estimacin de mxima
verosimilitud, maximum likelihood estimate, MLE).
La verosimilitud de los datos es directamente proporcional a la probabilidad
de obtener los datos observados dado el parmetro o parmetros estimados
Estadstica Aplicada el diseo experimental
Contraste de hiptesis estadsticas

Verosimilitud (likelihood) Las verosimilitudes son nmeros muy pequeos,


menores que 1, por lo que suele utilizarse ms frecuentemente el
logaritmo (natural) de la verosimilitud:
Tambin denotado
log como logLik, LL, L
Un buen modelo es el que tiene una alta verosimilitud. Por tanto, cuanto
mayor es log, mejor es el ajuste del modelo a los datos.
Un valor de es, en s mismo, irrelevante. Pero tiene utilidad comparativa. La
razn de verosimilitudes (likelihood ratio) permite comparar cunto ms
verosmil es un parmetro frente a otro:
( 2 | yobs ) / ( 1| yobs )
Estadstica Aplicada el diseo experimental
Contraste de hiptesis estadsticas

Verosimilitud, desvianza y criterio de informacin de Akaike (AIC)


La desvianza (deviance) se calcula como:
2 (loglogs)
siendo s la verosimilitud del modelo saturado: aqul que tiene tantos parmetros
como datos y, por tanto, tiene un ajuste perfecto.
El criterio de informacin de Akaike (Akaikes information criterion) se calcula como:
2 (loglogs) + 2K
siendo K el nmero de parmetros del modelo.
Al igual que la verosimilitud y la desvianza, el AIC proporciona una medida de la
calidad relativa de un modelo, para un conjunto dado de datos. Cuanto menor sea
el valor de AIC de un modelo, mejor es el ajuste.
Estadstica Aplicada el diseo experimental
Contraste de hiptesis estadsticas

Errores en el contraste de hiptesis


Nivel de significacin;
DECISION habitualmente = 0,05
Realidad: No Rechazar H0 Rechazar H0
Error Tipo I
Decisin correcta
(probabilidad = )
(probabilidad = 1 )
Ho Cierta falso positivo
Error Tipo II
Decisin correcta Poder o potencia
(probabilidad = )
(probabilidad = 1 ) estadstica: 1
Ho Falsa falso negativo
Estadstica Aplicada el diseo experimental
Contraste de hiptesis estadsticas

Errores en el contraste de hiptesis


Estadstica Aplicada el diseo experimental
Contraste de hiptesis estadsticas

Potencia estadstica
La potencia estadstica es la probabilidad de rechazar una H0 falsa (la probabilidad de
observar un efecto cuando realmente ocurre). Depende de cuatro factores:
1. El nivel de significacin ( ).
2. El tamao del efecto. Es la magnitud mnima de la diferencia o asociacin que se
considera relevante. Es una medida del grado de diferencia o del grado de relacin
que queremos detectar. Es una medida estandarizada, de clculo complejo.
3. El tamao de la muestra (n ). A mayor tamao de muestra mayor potencia al aumentar
la precisin.
4. La variabilidad de la respuesta ( ). A menor variabilidad mayor potencia. Influye en la
estimacin del tamao del efecto y es mayor cuando el tamao de la muestra es
pequeo.
Estadstica Aplicada el diseo experimental
Contraste de hiptesis estadsticas

Potencia estadstica
La potencia 1- aumenta si seleccionamos un nivel de significacin mayor:

Pero elegir un
mayor implica un
mayor riesgo de
cometer error
Tipo I.
Estadstica Aplicada el diseo experimental
Contraste de hiptesis estadsticas

Potencia estadstica
Mayor nivel de
significacin
Prueba un
web app en
showmeshiny.
com

Mayor tamao Mayor tamao


del efecto de la muestra
(precisin)
Estadstica Aplicada el diseo experimental
Contraste de hiptesis estadsticas

El debate sobre la utilidad de P


La cultura cientfica basada en el uso de P ha dominado durante la mayor parte
del siglo XX (y an domina en el siglo XXI). No obstante, se tiende a abandonar su
utilizacin y cada vez con mayor frecuencia se emplean como alternativa
procedimientos de seleccin de modelos e inferencia multimodelo, nuevo
paradigma para el anlisis estadstico.
En sntesis, un procedimiento de seleccin de modelos evala un conjunto de
modelos candidatos (generalmente mediante el AIC) y realiza la estimacin de
parmetros en funcin de las estimaciones ponderadas de dicho parmetro en
los diferentes modelos.
Se busca la mejor explicacin posible para los datos observados (best
approximating model) y, bajo esta perspectiva, el uso de P no tiene sentido.
Estadstica Aplicada el diseo experimental
Fundamentos del diseo experiemental

Diseo experimental:
Trmino que describe la estructura lgica de un experimento.
Experimento:
Es una operacin o procedimiento para testar una hiptesis.
Unidad experimental:
Divisin ms pequea de material experimental que recibe un tratamiento.
Tratamientos y controles:
Tratamiento es un trmino general para cualquier conjunto de comparaciones. Entre los
tipos tratamientos de un experimento debe figurar uno de control, que sirva de
comparacin para el anlisis de los efectos (generalmente un no-tratamiento). En
determinadas ocasiones (por ejemplo cuando se pretende determinar entre dos o mas
tratamientos cul es el mejor), cada tratamiento actuara como control del resto.
Estadstica Aplicada el diseo experimental
Fundamentos del diseo experiemental

Experimentos manipulativos y experimentos mensurativos


En sentido estricto, un experimento es un procedimiento de investigacin en el que todos
los factores ambientales estn bajo control. Como consecuencia es imprescindible
manipular las condiciones en las que se realiza el estudio: hablamos de experimentos
manipulativos o estudios experimentales. No obstante, muchas investigaciones utilizan
procedimientos de obtencin de la informacin no manipulativos que reciben la
denominacin de muestreos.
El muestreo es un procedimiento de observacin y medida exclusivamente: hablamos de
estudios observacionales, experimentos mensurativos, o experimentos naturales.
Generalmente el tratamiento estadstico en ambos casos es idntico, pero la diferencia
radica en la confianza y generalidad que podemos atribuir a las conclusiones derivadas
del estudio. En cualquier caso, los principios generales del diseo experimental deben ser
igualmente aplicados.
Estadstica Aplicada el diseo experimental
Fundamentos del diseo experiemental

Elementos clave en el diseo experimental


1.Replicacin y pseudorreplicacin
Replicar consiste en disponer al menos de dos unidades experimentales por cada tipo de
tratamiento. La incorrecta consideracin de lo que constituye una unidad experimental se
conoce como pseudorreplicacin.
2.Aleatorizacin y espaciamiento
Otro aspecto fundamental es la distribucin de las rplicas en el espacio: un esquema de
disposicin espacial aceptable debe considerar la adecuada separacin o espaciamiento
(interspersion) de aquellas unidades experimentales con el mismo tratamiento. Lo ideal es
una distribucin aleatoria.
3.Control del diseo
Por control del diseo nos referimos a la consideracin de otros elementos que tiene por
objeto reducir el error experimental.
Estadstica Aplicada el diseo experimental
Fundamentos del diseo experiemental

Elementos clave en el diseo experimental


1.Replicacin y pseudorreplicacin

Fuente: Krebs (1999)


Estadstica Aplicada el diseo experimental
Fundamentos del diseo experiemental

Elementos clave en el diseo experimental:


2.Aleatorizacin y espaciamiento

Fuente: Krebs (1999)


Estadstica Aplicada el diseo experimental
Fundamentos del diseo experiemental

Elementos clave en el diseo experimental


3. Control del diseo
Para reducir el error experimental (es decir, para que las conclusiones de las
comparaciones estadsticas sean ms precisas), hay que considerar:
a) usar unidades experimentales ms homogneas;
b) usar informacin de variables adicionales medidas en cada unidad experimental
(anlisis de la covarianza);
c) usar ms rplicas;
d) usar un diseo experimental ms eficiente: diseos equilibrados o balanceados
(balancing) y uso de bloques (blocking).
Estadstica Aplicada el diseo experimental
Fundamentos del diseo experiemental

Factores (efectos) fijos y factores (efectos) aleatorios


Una variable la consideramos factor fijo cuando sus niveles o valores son considerados de
inters especfico en la investigacin y son seleccionados o deliberadamente.
Una variable la consideramos como factor aleatorio cuando sus niveles o valores se
seleccionan aleatoriamente entre todos los posibles. [No confundir con el concepto de
variable aleatoria.]
Los efectos fijos son los que analizamos normalmente sobre observaciones estadsticamente
independientes. Los efectos aleatorios surgen cuando tenemos ms de una observacin en
cada unidad experimental (Venables y Ripley 2002).
Segn los factores considerados, tenemos diseos (y modelos estadsticos) fijos, aleatorios o
mixtos (si incluyen ambos tipos de efectos).
Estadstica Aplicada el diseo experimental
Fundamentos del diseo experiemental

Tipos de diseo experimental (Krebs 1999)


1.Modelos lineales aditivos
2.Diseos factoriales
3.Diseos de bloques aleatorios
4.Diseos split-plot
5.Diseos anidados
6.Diseos de cuadrado latino
7.Diseos de medidas repetidas
8.Estudios de impacto ambiental
Estadstica Aplicada el diseo experimental
Fundamentos del diseo experiemental

Tipos (en funcin de la naturaleza de las variables) (Gotelli y Ellison 2004)


Estadstica Aplicada el diseo experimental
Anlisis Estadstico: enfoque metodolgico

Anlisis paramtrico
Anlisis Bayesiano
Anlisis de Monte Carlo
Anlisis no paramtrico
Seleccin de modelos e inferencia multimodelo
Ronald Fischer (1890-1962)
Anlisis paramtrico (clsico, convencional o frecuentista)
Asume que los datos se ajustan a un determinado tipo de distribucin conocida.
Estima los parmetros de dicha distribucin a partir de los datos. Aqu la probabilidad
se define como la frecuencia relativa de una caracterstica de los datos.
Estadstica Aplicada el diseo experimental
Anlisis Estadstico: enfoque metodolgico

Anlisis Bayesiano
El anlisis Bayesiano es mucho ms antiguo (s. XVIII) que el frecuentista, pero es ms
complejo y su uso no se ha generalizado hasta el desarrollo de software accesible para la
mayora de usuarios (WinBUGS).
La estadstica Bayesiana tambin asume que los datos se ajustan a una distribucin, pero
los parmetros se estiman no solo a partir de los datos, sino tambin de informacin o
conocimiento previo, y asigna probabilidades a esos parmetros. Por tanto, la probabilidad
se usa para expresar la incertidumbre sobre un parmetro (en estadstica clsica es sobre
los datos). La receta para un anlisis Bayesiano es (Lindley 1983):
Qu es lo que no sabes y te interesa? Llmalo .
Qu sabes? Llmalo D.
Ahora calcula P ( |D).
Cmo? Usando las reglas de probabilidad.

Thomas Bayes (1702-1761)


Estadstica Aplicada el diseo experimental
Anlisis Estadstico: enfoque metodolgico

Anlisis de Monte Carlo (tests de aleatorizacin)


No asume ningn tipo de distribucin paramtrica de los datos (por ejemplo, normalidad).
Utiliza la aleatorizacin de los datos observados (permutaciones aleatorias).
Anlisis no paramtrico
Se fundamentan en el anlisis de los datos transformados en sus rangos (nmero de orden),
pero son un caso especial de anlisis de Monte Carlo. Actualmente su uso no se
recomienda (Gotelli y Ellison 2004) porque:
a) con la transformacin se pierde mucha informacin,
b) las tcnicas paramtricas son a menudo robustas frente las violaciones de las
asunciones (gracias al Teorema del Lmite Central), y
c) solo hay mtodos disponibles para anlisis simples.
Seleccin de modelos e inferencia multimodelo: punto 7
Estadstica Aplicada el diseo experimental
Anlisis Estadstico: conoce tus datos

Exactitud y precisin
Son dos aspectos fundamentales en el proceso de obtencin de datos. La ausencia de
exactitud se denomina sesgo (bias). La precisin se refiere a la dispersin de los datos y se
relaciona con la repetibilidad y la reproducibilidad.
Estadstica Aplicada el diseo experimental
Anlisis Estadstico: conoce tus datos
Variable de
respuesta
Representa tus datos (dependiente)
Sewage

attach(sewage)

Covariable

Tratamiento
(variable
categrica
Tamao de la independiente)
muestra (8 + 8)
Estadstica Aplicada el diseo experimental
Anlisis Estadstico: conoce tus datos

Representa tus datos grficamente


hist(coliform)
plot(day, coliform, col=factor(method))
Estadstica Aplicada el diseo experimental
Anlisis Estadstico: conoce tus datos

Box plot (box-and-whisker plot, diagrama de caja)


> boxplot(coliform ~ method)
Estadstica Aplicada el diseo experimental
Anlisis Estadstico: conoce tus datos

Representa tus datos grficamente


hist(coliform)
plot(day, coliform, col=factor(method))
Estadstica Aplicada el diseo experimental
Anlisis Estadstico: conoce tus datos

Barra de error
Estadstica Aplicada el diseo experimental
Anlisis Estadstico: conoce tus datos

Requisitos de normalidad y homocedasticidad. Transformaciones


La aplicacin de los test paramtricos presenta una serie de requisitos que deben
cumplir los datos: independencia, normalidad (ajuste a una distribucin normal) y
homogeneidad de varianzas (homocedasticidad).
La independencia se consigue con un diseo experimental (o de muestreo) adecuado.
Si tenemos datos no independientes hay que utilizar las tcnicas adecuadas para
analizarlos (modelos mixtos).
La normalidad y la homocedasticidad (en el caso de variables continuas) se pueden
conseguir a travs de transformaciones (por ejemplo aplicando logaritmos).
No obstante, los tests paramtricos suelen ser robustos frente a las violaciones de estos
requisitos.

Вам также может понравиться