Академический Документы
Профессиональный Документы
Культура Документы
Población normal
Cuando el muestreo es a partir de una población con distribución normal, la distribución de la
media de la muestra tendrá las propiedades:
1- La distribución de la media de la muestra será normal.
2- La media de la distribución de las medias muestrales será igual a la media de la población.
3- L a variancia de la distribución de las medias muestrales será igual a la varianza de la
población dividida por el tamaño de la muestra.
“Dada una población de cualquier forma funcional no normal con una media y una varianza
finita, la distribución muestral de la media muestral calculada a partir de muestras de tamaño
n de esta población, estará distribuida en forma aproximadamente normal, cuando el tamaño
de la muestra es grande.”
Es decir que permite muestrear a partir de poblaciones que no presentan distribución normal
con una garantía de aproximadamente los mismos resultados que se obtendrían si la población
tuviera distribución normal, siempre que se tome una muestra grande. En la mayoría de las
situaciones prácticas, resulta satisfactoria una muestra de tamaño 30.
Estimación
La inferencia estadística es el procedimiento por medio del cual se llega a la inferencia acerca
de una población con base en los resultados obtenidos de una muestra extraída de esa
población.
Pruebas de Hipótesis
Introducción: Una hipótesis se define simplemente como una afirmación acerca de una o más
poblaciones. Se trata con dos tipos de hipótesis: las hipótesis de investigación y las hipótesis
estadísticas. La hipótesis de investigación son la conjetura o suposición que motiva la
investigación. Las hipótesis de investigación conducen directamente a hipótesis estadísticas.
Las hipótesis estadísticas se establecen de tal forma que puedan ser evaluadas a través de
técnicas estadísticas apropiadas.
En las pruebas de hipótesis se trabaja con dos hipótesis estadísticas que se expresan
explícitamente. La primera es la hipótesis que debe probarse, la hipótesis nula (Ho). Esta
hipótesis a veces se conoce como hipótesis de no diferencia, ya que es una proposición de
conformidad con (o no diferencia respecto de) condiciones verdaderas en la población de
interés. En general, la hipótesis nula se establece con el propósito expreso de ser rechazada.
En el proceso de prueba, Ho se rechaza o bien no se rechaza. Si no se rechaza, se dirá que los
datos sobre los cuales se basa la prueba no proporcionan evidencia suficiente que provoque el
rechazo. Si el procedimiento de prueba conduce al rechazo, se concluirá que los datos
disponibles no son compatibles con Ho, pero son apoyo de alguna otra hipótesis. Esta otra
hipótesis se conoce como hipótesis alternativa Ha.
Regla de decisión: los valores posibles se dividen en dos grupos: uno de los grupos constituye
lo que se conoce como región de rechazo y el otro grupo forma la región de aceptación. Los
valores de la estadística de prueba que comprenden la región de rechazo son aquellos que
tienen la menor probabilidad de suceder si Ho es verdadera, mientras que los valores que
forman la región de aceptación son los que tienen mayor probabilidad de ocurrir si la
hipótesis nula es verdadera. La regla de decisión señala que se rechace Ho si el valor de la
estadística de prueba que se calcule a partir de la muestra es uno de los valores de la región de
rechazo, y que no se rechace (o “acepte”) Ho si el valor calculado de la estadística de prueba es
uno de los valores de la región de aceptación.
La decisión, por lo que respecta a qué valores van hacia la región de rechazo y cuáles a la
región de aceptación, se toma en base al nivel de significación deseado, que se designa por α.
El nivel de significación, α, especifica el área bajo la curva de la distribución de la estadística de
prueba que está por arriba de los valores sobre el eje horizontal que constituyen la región de
rechazo. Se ve entonces que α es una probabilidad y, de hecho, es la probabilidad de rechazar
una hipótesis nula verdadera. Dado que el rechazar una hipótesis nula verdadera sería un
error, únicamente parece razonable que debe hacerse pequeña la probabilidad de rechazar
una hipótesis nula verdadera, y en efecto, eso es lo que se hace.
El error que se comente cuando se rechaza una Ho verdadera se conoce como error de Tipo I.
El error del tipo II se comete cuando se acepta Ho siendo falsa. La probabilidad de cometer un
error de tipo II se designa por β.
Siempre que se rechaza una Ho se tiene el riesgo de cometer un error de tipo I, rechazar una
Ho verdadera. Siempre que se acepta una Ho existe riesgo de aceptar una Ho falsa.
Valores P
Análisis de Varianza
Llámese error a la cantidad en la que cualquier valor difiere de la media de su grupo. Este
término no significa equivocación sino que se utiliza para referirse a la variación no controlada
que existe entre los miembros de cualquier población.
Se define el análisis de variancia como un proceso mediante el cual la variación total presente
en un conjunto de datos se distribuye en componentes atribuibles a diferentes fuentes. El
término variación utilizado en este contexto se refiere a la suma de las desviaciones al
cuadrado de las observaciones respecto de su media, o bien, la suma de cuadrados.
La estimación por mínimos cuadrados usa el criterio en que la solución debe dar la sumatoria
más pequeña de las derivaciones al cuadrado de los Y observados de la estimación de sus
medias provistas por la solución.
La regresión permite
1. La estimación de la media de la población de Y para ese valor particular de X.
2. La predicción del valor de Y que se podría obtener con un valor X futuro.
Los residuos son las diferencias que hay entre cada valor Y estimado con respecto a cada Y
observado. Es decir:
e = Yobs – Yest
Los residuos se definen como las desviaciones de los valores observados de los valores
estimados provistos por la ecuación de regresión. Alternativamente, cada valor observado de
la variable dependiente Y puede escribirse como la suma de la media de la población estimada
para el valor dado de X y el residuo correspondiente.
Yobs = Yest + e
Estas distancias entre la recta de regresión, la recta de la media y los puntos observados, son:
la desviación explicada y la desviación inexplicada, las cuales sumadas dan la desviación total.
Elevando las distancias al cuadrado y sumando todas las correspondientes a cada muestra se
obtiene:
En general, los grados de libertad asociados con la suma de cuadrados debida a la regresión
son iguales al número de constantes de la ecuación de regresión menos uno. En el caso de la
regresión lineal simple, se tienen dos constantes, a y b (Y= a + bX), por lo que solo posee un
grado de libertad.
Se usan en ocasiones en las que la relación entre las variables es no lineal. Existen recetas para
restaurar la linealidad que aplican funciones en algunas situaciones, aunque no son infalibles.
Transformaciones Box-Cox:
X’ = (Xθ-1) /θ
Correlación
Cuando se tienen dos variables aleatorias, se tiene un modelo de correlación. Bajo el modelo
de correlación se obtienen observaciones de la muestra seleccionando una muestra al azar de
las unidades de asociación y tomando una medida de X y una medida de Y sobre cada una. En
este procedimiento, los valores de X no se preseleccionan, sino que, son al azar, dependiendo
de la unidad de asociación seleccionada en la muestra.
Ambas variables se ponen en el mismo terreno y no se las distingue como variable
dependiente y variable independiente.
Deben cumplirse las siguientes suposiciones para que sean válidas las inferencias acerca de la
población, cuando se muestrea a partir de una distribución bivariada.
El coeficiente de correlación
Si p =1 existe una correlación lineal directa perfecta entre las dos variables.
Por lo general, se tiene interés en saber si puede concluirse que p ≠ 0, es decir, si X e Y están
correlacionadas. Dado que por lo general se desconoce p, se extrae una muestra aleatoria de
la población de interés, se calcula r, el estimador de p y se prueba Ho: p =0 contra Ha: p ≠ 0.
Remuestreo y optimización
Técnicas de remuestreo:
Ventajas: es una forma sencilla de obtener estimaciones de los errores estándar y de los
intervalos de confianza para los estimadores complejos de parámetros complejos de la
distribución. Es una manera apropiada para controlar y comprobar la estabilidad de los
resultados.
Métodos de optimización
Optimización global aleatoria: más versátil para encontrar un mínimo más global. Se elige
un punto inicial (combinación de valores de parámetros) y para ese punto se calcula el -log
de la verosimilitud. Se repite este procedimiento hasta obtener una respuesta
suficientemente buena o agotar el tiempo. Se elige un nuevo punto al azar, cercano al
punto anterior, para el cual se calcula el -log de la verosimilitud.
Permite que al conocer los valores de algunas variables, se puedan efectuar predicciones
cobre los valores previsibles de otra y se podría responder con criterio estadístico a
cuestiones acerca de la relación de una variable sobre otra.
La regresión lineal múltiple buscará relacionar de manera aproximada los valores de Y con
los que toman otras variables, Xo, . . . , Xp-1 con una fórmula del tipo f(Xo, . . . , Xp-1).
Se desea estimar el valor de los parámetros desconocidos β para lo que se cuenta con
una muestra de N observaciones de la variable aleatoria Y, y de los
correspondientes valores de las variables explicativas X. Esta muestra nos permitirá
escribir N igualdades similares:
.
.
.
Intervalos de confianza
Estimador de β
“b” será estimador de β de manera que será un vector px1.
b = (X’X)-1 X’Y
Prueba de F
Ho: todos los β son cero (es decir no hay linealidad en ninguna X)
Ha: al menos un β es distinto de cero. (al menos una variable independiente tiene
linealidad con la variable dependiente).
F*= MSR/MSE
Donde MSR media de cuadrados de la reg y MSE es la media de cuadrados del
error. MSR= SSR/k MSE = SSE/(n-p)
Si F*=< F luego acepto Ho
Si F*> F luego acepto Ha
S2{b} = MSE *(X´X)-1 es el estimador de la matriz de varianza-covarianza de b.
Utilizamos la tabla de análisis de varianza:
Fuente de Suma de Grados Media de Estadístico de
Variación cuadrados de libertad cuadrados prueba
SSR
Regresión SSR k MSR
k MSR
F0
SSE MSE
Error SSE n–p MSE
np
Total Syy n–1
Medidas de diagnóstico
Residuales
Residuales estandarizados
Residuales estudentizados: ej. Cuando los residuales tienen varianzas
diferentes, se utiliza un estimador insesgado.
Residuales con datos omitidos
Residuales estudentizados con datos omitidos
Identificación de casos influénciales
Caso influencial: datos cuya exclusión causa cambios importantes en la función de
regresión. Influencia en los valores ajustados (DFFITS).
Como guía para la identificación de Casos Influenciales se sugiere considerarlos como
tales si (DFFITS)i>1 con grupos de datos pequeños, o >2(p/n)1/2 con grupos de datos
grandes
Diagnósticos de multicolinealidad
Informales
1. Grandes cambios en los parámetros de regresión estimados cuando una variable
o un valor es adicionado o sacado
2. Resultados no significativos en los coeficientes de regresión de variables
independientes importantes.
3. Coeficientes de regresión de signo opuesto al esperado
4. Coeficiente de correlación alto entre pares de variables independientes.
5. Intervalos de confianza muy amplios en coeficientes que representan variables
importantes.
Formales (VIF: Variance Inflation Ratio)
(VIF)k = 1- Rj2 donde Rj2 es el coeficiente de determinación múltiple cuando Xk es
regresionado contra p-2 otras variables en el modelo.
VIF = 1 cuando Rj^2 = 0
VIF > 1 cuando Rj^2 dif 0
VIF > 10 ===> Multicolinealidad
VIF = ∞ cuando Rj^2 = 0
VIF avg = SUM (VIF)k / p-1
VIF avg > o = multicolinealidad importante
Análisis Discriminante
Explica la pertenencia de cada caso del fichero de datos original a uno u otro
grupo en función de las variables de su perfil para comprobar su pertenencia o
no al grupo preestablecido y cuantificar el peso de cada una de ellas en la
discriminación.
Busca predecir a qué grupo mas probable habrá de pertenecer un nuevo
individuo del que únicamente se conoce su perfil de variables.
Cluster o conglomerados
Es una técnica de Análisis Exploratorio de datos para resolver problemas de
clasificación. Consiste en ordenar objetos en grupos (conglomerados o clusters) de
acuerdo a características que asemejan a los diferentes objetos.
Etapas:
1- Elección de las variables
2- Elección de la medida de asociación
3- Elección de la técnica Cluster
4- Validación de los resultados
Elección de las variables
Pueden ser cualitativas ordinales
Nominales
Cuantitativas discretas
Continuas
Medidas de asociación
Consiste en seleccionar una medida de distancia, lo que determinará la forma en la
similitud de los dos elementos que se calcula. Esto influirá en la forma de los clusters,
ya que algunos elementos pueden estar cerca o lejos el uno del otro en función de una
distancia.
Distancia euclídea, Minkowsky, Valor Absoluto, Mahalanobis
Los datos provienen de una o varias poblaciones con matrices de varianzas-
covarianzas.
Técnicas o Métodos Cluster
Se dividen en dos grupos:
Métodos jerárquicos: son aquellos que para formar un clúster nuevo une o separa
alguno ya existente para dar origen a otros dos de forma que se maximice una
similaridad o se minimice una distancia. Dentro de estos a su vez se clasifican en
asociativos o aglomerativos: se parte de tantos grupos como individuos y se van
agrupando hasta llegar a tener todos los individuos en un solo grupo (son rápidos); o
disociativos en los que se parte de un solo grupo que contenga a todos los individuos
y se va separando hasta llegar a formar grupos individuales.
Las clasificaciones jerárquicas pueden representarse por medio de dendogramas,
que son diagramas bidimensionales y a través de los cuales se muestra como ha sido
el proceso de unión o división de los cluster.
El “método del mínimo” busca la mínima distancia entre dos cluster y la mínima de las
distancias entre los casos de cada cluster.
El “método del máximo” o “vecino mas lejano” en el que la distancia entre dos cluster se
define como el máximo de las distancias entre los casos de los cluster.
También existen otros métodos como el “método del promedio”, el “método del
centroide” o el “método de Ward” en el que se calculan las distancias como la medida
de la similitud entre los objetos. Este método tiene por objetivo buscar la mínima
heterogeneidad total al unir dos cluster.
Métodos no jerárquicos: se clasifican los individuos en k grupos, estudiando
todas las particiones de individuos en esos k grupos y eligiendo la mejor
partición.
El “método de las k-medias” es particional, utiliza distancia euclídea, necesita el número
de clusters(k). Ubica k puntos en el espacio representado por los objetos a ser
agrupados. Estos k puntos son los centroides iniciales de cada grupo, luego asigna a
cada objeto al grupo que esté mas cercano a su centroide. Recalcula la posición de los
k centroides y repite el proceso hasta que los prototipos ya no varíen minimizando la
distancia intracluster según la métrica dada.