Вы находитесь на странице: 1из 18

Distribución de la Media de la Muestra

Al tomar diferentes muestras de una población, se puede construir una distribución de


muestreo de la media de las muestras, con diferentes frecuencias para cada valor que la media
puede tomar. Esto se puede expresar en un histograma, con la frecuencia de ocurrencia de
cada valor de las medias para las diferentes muestras.

Población normal
Cuando el muestreo es a partir de una población con distribución normal, la distribución de la
media de la muestra tendrá las propiedades:
1- La distribución de la media de la muestra será normal.
2- La media de la distribución de las medias muestrales será igual a la media de la población.
3- L a variancia de la distribución de las medias muestrales será igual a la varianza de la
población dividida por el tamaño de la muestra.

Población no normal: Teorema central del límite

“Dada una población de cualquier forma funcional no normal con una media y una varianza
finita, la distribución muestral de la media muestral calculada a partir de muestras de tamaño
n de esta población, estará distribuida en forma aproximadamente normal, cuando el tamaño
de la muestra es grande.”
Es decir que permite muestrear a partir de poblaciones que no presentan distribución normal
con una garantía de aproximadamente los mismos resultados que se obtendrían si la población
tuviera distribución normal, siempre que se tome una muestra grande. En la mayoría de las
situaciones prácticas, resulta satisfactoria una muestra de tamaño 30.

Estimación

La inferencia estadística es el procedimiento por medio del cual se llega a la inferencia acerca
de una población con base en los resultados obtenidos de una muestra extraída de esa
población.

Un estimador T del parámetro P, es un estimador insesgado de P si E(T) = P. Es decir que si el


valor esperado (esperanza) de T es P.

Intervalo de confianza para la media de una población

El intervalo (1- α) da el porcentaje de confianza de que el intervalo único calculado contenga la


media de la población.

Pruebas de Hipótesis

Introducción: Una hipótesis se define simplemente como una afirmación acerca de una o más
poblaciones. Se trata con dos tipos de hipótesis: las hipótesis de investigación y las hipótesis
estadísticas. La hipótesis de investigación son la conjetura o suposición que motiva la
investigación. Las hipótesis de investigación conducen directamente a hipótesis estadísticas.
Las hipótesis estadísticas se establecen de tal forma que puedan ser evaluadas a través de
técnicas estadísticas apropiadas.
En las pruebas de hipótesis se trabaja con dos hipótesis estadísticas que se expresan
explícitamente. La primera es la hipótesis que debe probarse, la hipótesis nula (Ho). Esta
hipótesis a veces se conoce como hipótesis de no diferencia, ya que es una proposición de
conformidad con (o no diferencia respecto de) condiciones verdaderas en la población de
interés. En general, la hipótesis nula se establece con el propósito expreso de ser rechazada.
En el proceso de prueba, Ho se rechaza o bien no se rechaza. Si no se rechaza, se dirá que los
datos sobre los cuales se basa la prueba no proporcionan evidencia suficiente que provoque el
rechazo. Si el procedimiento de prueba conduce al rechazo, se concluirá que los datos
disponibles no son compatibles con Ho, pero son apoyo de alguna otra hipótesis. Esta otra
hipótesis se conoce como hipótesis alternativa Ha.

Ni las pruebas de hipótesis ni la inferencia estadística conducen a la prueba de una hipótesis,


sino que simplemente indican si ésta es apoyada o no por los datos disponibles. Por lo tanto,
cuando no es posible rechazar una hipótesis nula, no se dice que es verdadera, sino que puede
ser verdadera.

Regla de decisión: los valores posibles se dividen en dos grupos: uno de los grupos constituye
lo que se conoce como región de rechazo y el otro grupo forma la región de aceptación. Los
valores de la estadística de prueba que comprenden la región de rechazo son aquellos que
tienen la menor probabilidad de suceder si Ho es verdadera, mientras que los valores que
forman la región de aceptación son los que tienen mayor probabilidad de ocurrir si la
hipótesis nula es verdadera. La regla de decisión señala que se rechace Ho si el valor de la
estadística de prueba que se calcule a partir de la muestra es uno de los valores de la región de
rechazo, y que no se rechace (o “acepte”) Ho si el valor calculado de la estadística de prueba es
uno de los valores de la región de aceptación.
La decisión, por lo que respecta a qué valores van hacia la región de rechazo y cuáles a la
región de aceptación, se toma en base al nivel de significación deseado, que se designa por α.
El nivel de significación, α, especifica el área bajo la curva de la distribución de la estadística de
prueba que está por arriba de los valores sobre el eje horizontal que constituyen la región de
rechazo. Se ve entonces que α es una probabilidad y, de hecho, es la probabilidad de rechazar
una hipótesis nula verdadera. Dado que el rechazar una hipótesis nula verdadera sería un
error, únicamente parece razonable que debe hacerse pequeña la probabilidad de rechazar
una hipótesis nula verdadera, y en efecto, eso es lo que se hace.
El error que se comente cuando se rechaza una Ho verdadera se conoce como error de Tipo I.
El error del tipo II se comete cuando se acepta Ho siendo falsa. La probabilidad de cometer un
error de tipo II se designa por β.

Siempre que se rechaza una Ho se tiene el riesgo de cometer un error de tipo I, rechazar una
Ho verdadera. Siempre que se acepta una Ho existe riesgo de aceptar una Ho falsa.

Si Ho se rechaza, se concluye que Ha es verdadera. Si no se rechaza Ho, se concluye que Ho


puede ser verdadera.

Valores P

En lugar de decir que un valor observado de la estadística de prueba es significativo o no, se


expresa la probabilidad exacta de obtener un valor como el extremo o más extremo que aquel
observado, si la Ho es verdadera. El valor P es la probabilidad de observar un valor tanto o
más extremo que los valores extremo fijados como límite, cuando la Ho es verdadera. (¿es la
prob de caer en α? No. La probabilidad de caer en α es .05)
El valor P para la prueba de una hipótesis es la probabilidad de obtener, cuando Ho es
verdadera, un valor de la estadística de prueba tan extremo o más que el calculado en
realidad.
El valor P para una prueba puede definirse también como el valor más pequeño de α para el
cual la hipótesis nula puede rechazarse. El reporte del valor P asociado con una prueba
permite saber con exactitud, qué tan raro o qué tan común es el valor calculado de la
estadística de prueba dado que Ho es verdadera.

Análisis de Varianza

Llámese error a la cantidad en la que cualquier valor difiere de la media de su grupo. Este
término no significa equivocación sino que se utiliza para referirse a la variación no controlada
que existe entre los miembros de cualquier población.
Se define el análisis de variancia como un proceso mediante el cual la variación total presente
en un conjunto de datos se distribuye en componentes atribuibles a diferentes fuentes. El
término variación utilizado en este contexto se refiere a la suma de las desviaciones al
cuadrado de las observaciones respecto de su media, o bien, la suma de cuadrados.

Regresión lineal simple


Es útil para averiguar la forma probable de la relación entre las variables, y su objeto final es
predecir o estimar el valor de una variable que corresponde a un valor determinado de otra
variable.

Suposiciones que fundamentan el modelo de regresión lineal simple:

1- Los valores de la variable independiente X son preseleccionados por el investigador,


de modo que en la recolección de los datos no se permite que varíen de estos valores
preseleccionados.
2- La variable X se mide sin error. Se desprecia la magnitud del error en la medición de X.
3- Para cada valor de X, existe una subpoblación de valores Y. Para que sean válidos los
procedimientos comunes de inferencia estadística de estimación y prueba de
hipótesis, estas subpoblaciones deben tener una distribución normal.
4- Todas las variancias de las subpoblaciones de Y son iguales.
5- Todas las medias de las subpoblaciones de Y están sobre la misma línea recta. Esto se
conoce como suposición de linealidad.
6- Los valores de Y son estadísticamente independientes. Al extraer una muestra, se
supone que los valores de Y obtenidos para un valor de X de ninguna manera
dependen de los valores de Y elegidos para otro valor de X.

Los modelos hacen referencia al desarrollo de expresiones matemáticas que describen en


algún sentido el comportamiento de una variable de interés. En cualquier caso, esta es la
variable dependiente y se denota con una Y. Con frecuencia el modelo trata de describir cómo
la media de la variable dependiente Y cambia al modificar las condiciones; la varianza de la
variable dependiente se asume que no se modifica al cambiar las condiciones experimentales.

Otras variables que se cree proveen información en el comportamiento de la variable


dependiente son incorporadas en el modelo como predictores o variables explicativas. Estas
variables son denominadas variables independientes y se denotan con X.
Además todos los modelos involucran constantes desconocidas denominadas PARAMETROS
quienes controlan el desarrollo del modelo. Se expresan con letras griegas y se estiman de los
datos.
La recta de mínimos cuadrados, es el resultado de utilizar el método de mínimos cuadrados,
el cual busca la recta que posea la menor suma de cuadrados de las desviaciones entre la
recta calculada y los datos observados a partir de la muestra.

La estimación por mínimos cuadrados usa el criterio en que la solución debe dar la sumatoria
más pequeña de las derivaciones al cuadrado de los Y observados de la estimación de sus
medias provistas por la solución.

Valores predichos y residuales

La regresión permite
1. La estimación de la media de la población de Y para ese valor particular de X.
2. La predicción del valor de Y que se podría obtener con un valor X futuro.

Los residuos son las diferencias que hay entre cada valor Y estimado con respecto a cada Y
observado. Es decir:

e = Yobs – Yest

Análisis de la variación en la variable dependiente

Los residuos se definen como las desviaciones de los valores observados de los valores
estimados provistos por la ecuación de regresión. Alternativamente, cada valor observado de
la variable dependiente Y puede escribirse como la suma de la media de la población estimada
para el valor dado de X y el residuo correspondiente.

Yobs = Yest + e

Evaluación de la ecuación de regresión

El coeficiente de determinación: una forma de evaluar la ecuación de regresión es comparar


la dispersión de los puntos en torno a la recta de regresión con la dispersión de la media de los
valores de la muestra de Y (recta horizontal). Para evaluar si la dispersión de los puntos
alrededor de una u otra recta es menor, se utiliza el llamado coeficiente de determinación.

Estas distancias entre la recta de regresión, la recta de la media y los puntos observados, son:
la desviación explicada y la desviación inexplicada, las cuales sumadas dan la desviación total.
Elevando las distancias al cuadrado y sumando todas las correspondientes a cada muestra se
obtiene:

SCT = SCexplicada + SCinexplicada

Estas cantidades pueden considerarse como medidas de dispersión o de variabilidad. La SCT es


una medida de la dispersión de los valores observados de Y en torno a su media, es decir, es
una medida de la variación total en los valores observados Y.
La SCinexplicada mide la parte de la variabilidad total en los valores observados de Y en torno
a la recta de regresión y, se le conoce como suma de error de cuadrados o suma residual de
cuadrados. Es la cantidad que se minimiza cuando se obtiene la recta de mínimos cuadrados.
La SCexplicada mide la parte de la variabilidad total en los valores observados de Y que se
toma en cuenta mediante la relación lineal entre los valores observados X e Y. Esta cantidad se
conoce también como la suma de cuadrados debida a la regresión lineal.

Una medida de la contribución de las variables independientes en el modelo es el coeficiente


de determinación R2. Este coeficiente se calcula como la razón de la SCexp respecto a la SCT.
El coeficiente de determinación de la muestra mide la proximidad del ajuste de la ecuación
de regresión de la muestra a los valores observados de Y. Es el porcentaje explicado por la
regresión de la variación total de los datos. R2 toma valores entre 0 y 1, siendo 1 el valor de
R2 cuando la regresión explica por completo la distribución de los datos (los datos caen sobre
la recta de regresión).

En general, los grados de libertad asociados con la suma de cuadrados debida a la regresión
son iguales al número de constantes de la ecuación de regresión menos uno. En el caso de la
regresión lineal simple, se tienen dos constantes, a y b (Y= a + bX), por lo que solo posee un
grado de libertad.

Yi = β0 + β1Xi + ε. Donde ε es el error que diferencia la recta de regresión de los datos


observados.

Transformaciones para la regresión lineal

Se usan en ocasiones en las que la relación entre las variables es no lineal. Existen recetas para
restaurar la linealidad que aplican funciones en algunas situaciones, aunque no son infalibles.

Algunas soluciones se basan en la transformación de X:


x = log (x) x= raíz (x) x = x2 x= exp(x) x=1/x x=exp(-x)

Otras se basan en la transformación de Y:

y= raíz (y) y= log(y) y= 1/y

Transformaciones Box-Cox:

X’ = (Xθ-1) /θ

Donde variando θ entre -3 y 3 podemos disponer de todos los tipos de transformaciones


utilizadas comúnmente.

Correlación

Cuando se tienen dos variables aleatorias, se tiene un modelo de correlación. Bajo el modelo
de correlación se obtienen observaciones de la muestra seleccionando una muestra al azar de
las unidades de asociación y tomando una medida de X y una medida de Y sobre cada una. En
este procedimiento, los valores de X no se preseleccionan, sino que, son al azar, dependiendo
de la unidad de asociación seleccionada en la muestra.
Ambas variables se ponen en el mismo terreno y no se las distingue como variable
dependiente y variable independiente.

La correlación es una medida de la relación (covariación) lineal entre dos variables


cuantitativas continuas (x,y). la manera más sencilla de saber si dos variables están
correlacionadas es determinar si covarían (varían conjuntamente). La covariación no implica
causalidad, puede ser fortuita debido a un tercer factor que las causa.
Bajo el modelo de correlación, se supone que X e Y varían juntas en lo que se conoce como
distribución conjunta. Si la forma de esta distribución conjunta tiene una distribución normal,
se conoce como distribución normal bivariada. Si la distribución conjunta es no normal, o si se
desconoce la forma, se invalidan los procedimientos inferenciales.

Deben cumplirse las siguientes suposiciones para que sean válidas las inferencias acerca de la
población, cuando se muestrea a partir de una distribución bivariada.

1- Para cada valor de X, existe una subpoblación de valores de Y normalmente


distribuida.
2- Para cada valor de Y, existe una subpoblación de valores de X normalmente
distribuida.
3- La distribución conjunta de X e Y es una distribución normal llamada distribución
normal bivariada.
4- Todas las subpoblaciones de los valores de Y tienen la misma variancia.
5- Todas las subpoblaciones de los valores de X tienen la misma variancia.

El coeficiente de correlación

El parámetro p se conoce como coeficiente de correlación de la población y mide la


intensidad de la relación lineal entre X e Y.

P puede tomar valores entre -1 y 1.

Si p =1 existe una correlación lineal directa perfecta entre las dos variables.

Si p = -1 indica una correlación lineal inversa perfecta.

Si p =0 las variables no están correlacionadas.

De esta forma, el signo de p siempre será el mismo de β, la pendiente de la recta de regresión


para X e Y.

El coeficiente de correlación de la muestra, r, describe la relación entre las observaciones de


la muestra, en dos variables, de la misma forma que p describe la relacione en una
población.

Por lo general, se tiene interés en saber si puede concluirse que p ≠ 0, es decir, si X e Y están
correlacionadas. Dado que por lo general se desconoce p, se extrae una muestra aleatoria de
la población de interés, se calcula r, el estimador de p y se prueba Ho: p =0 contra Ha: p ≠ 0.

Remuestreo y optimización

Técnicas de remuestreo:

 Aleatorización: implica barajar los datos originales y evaluar la intensidad de


asociación de datos apareados
 Jacknife: calcular el estadístico de interés para todas las combinaciones de datos
donde uno o más datos puntuales son omitidos.
Se usa en inferencia estadística para estimar el sesgo y el error estándar (varianza) de
una estadística, cuando se utiliza una muestra aleatoria de observaciones para
calcularlo. La idea básica detrás de la varianza del estimador jakknife consiste en
recalcular sistemáticamente la estimación estadística omitiendo una o más
observaciones a la vez en el conjunto de la muestra. Jakknife depende de la
independencia de los datos.

 Bootstrap: estimar la distribución de muestreo de un estadístico generando nuevas


muestras al remuestrear reemplazando la muestra original.

En ausencia de nuevas fuentes de muestras, provee la única información disponible para


aproximar la distribución de un estadístico. Se remuestrea “con reemplazo” la muestra
original obteniendo numerosas muestras (muestras bootstrap), las cuales se pueden
utilizar para basar los cálculos de los estadísticos de interés.
Si la muestra original no es suficientemente grande, el número de “muestras bootstrap”
efectivo es limitado, puesto que la información se repite y no se pueden obtener nuevos
datos.

Ventajas: es una forma sencilla de obtener estimaciones de los errores estándar y de los
intervalos de confianza para los estimadores complejos de parámetros complejos de la
distribución. Es una manera apropiada para controlar y comprobar la estabilidad de los
resultados.

Desventajas: la simplicidad aparente puede ocultar el hecho de que los supuestos


importantes se realizan al llevar a cabo el análisis de arranque (como la independencia de
las muestras).

Métodos de optimización

Búsqueda directa: explora el rango de valores del o los parámetros.

Basados en Derivadas: fuertes supuestos sobre la naturaleza de la superficie de ajuste:


suave, continua y con un único mínimo. Conocidos como métodos quasi-Newton.

Libre de derivadas: usan algo de información de la superficie, pero no suponen suavidad.

Optimización global aleatoria: más versátil para encontrar un mínimo más global. Se elige
un punto inicial (combinación de valores de parámetros) y para ese punto se calcula el -log
de la verosimilitud. Se repite este procedimiento hasta obtener una respuesta
suficientemente buena o agotar el tiempo. Se elige un nuevo punto al azar, cercano al
punto anterior, para el cual se calcula el -log de la verosimilitud.

Modelos de crecimiento en plantas: Weibull, Chapman-Richards, Monomolecular,


Gompertz.

Regresión lineal múltiple

Permite que al conocer los valores de algunas variables, se puedan efectuar predicciones
cobre los valores previsibles de otra y se podría responder con criterio estadístico a
cuestiones acerca de la relación de una variable sobre otra.
La regresión lineal múltiple buscará relacionar de manera aproximada los valores de Y con
los que toman otras variables, Xo, . . . , Xp-1 con una fórmula del tipo f(Xo, . . . , Xp-1).

La ecuación de regresión se formará de la siguiente forma:

Y = β0X0 + β 1X1 + · · · + β p−1Xp−1 + ε,

Dónde: los parámetros β son parámetros fijos desconocidos.

Las X son variables cuyos valores son fijados por el experimentador, y Xo


toma el valor constante 1.
Ε es una variable aleatoria inobservable.

Se desea estimar el valor de los parámetros desconocidos β para lo que se cuenta con
una muestra de N observaciones de la variable aleatoria Y, y de los
correspondientes valores de las variables explicativas X. Esta muestra nos permitirá
escribir N igualdades similares:

Y1= β0 X1,0 + β 1X1,1 + · · · + β p−1 X1,p−1 + ε1

Y2 = β0X2,0 + β1X2,1 + · · · + β p−1X2,p−1 + ε2

.
.
.

YN = β0XN,0 + β 1XN,1 + · · · + β p−1XN,p−1 + εN.

La forma matricial que escribimos estas N igualdades es:

y (vector) = β(vectot)X + ε(vector)N


siendo :
“y” el vector de N x 1 observaciones de la variable aleatoria Y
“X” la matriz de N x p de valores de las variables x.
“β” el vector de parámetros que van de 0 a p-1
“ε” es el vector de N x 1 de valores de la perturbación aleatoria ε.
El vector ε son los residuos y recogen la diferencia entre los valores muestrales
observados y los ajustados de la variable aleatoria Y.

Covarianza: es un valor que indica el grado de variación conjunta de dos


variables aleatorias respecto a sus medias. Es el dato básico para determinar si
existe una dependencia entre ambas variables y además es el dato necesario
para estimar otros parámetros como el coeficiente de correlación lineal o la
recta de regresión.
La matriz de covarianzas del vector β tiene en su diagonal principal las varianzas
de los componentes del vector β y fuera de la diagonal principal, las covarianzas.
Siendo SSE la Suma de los Cuadrados del Error, hay una relación interesante entre
SSE y otras dos sumas de cuadrados.
Sea el vector ȳ un vector con las medias aritméticas de las observaciones será:
SST = |y vector - ȳ vector|2 suma de cuadrados totales como el cuadrado de la
diferencia entre Y observados y sus medias.
SSR = |βvector X - ȳ vector|2 suma de los cuadrados de las diferencias entre el valor
estimado para Y a partir de la regresión y la media de los Y observados.
Luego SST = SSR + SSE
Es decir que la suma de cuadrados totales, va a ser la suma de la suma de
cuadrados de la regresión y la suma de cuadrados del error.

Definimos R2 = SSR/SST; se denomina a R coeficiente de correlación múltiple.


Claramente, 0 =< R2 =< 1.

Intervalos de confianza

Estimador de β
“b” será estimador de β de manera que será un vector px1.
b = (X’X)-1 X’Y
Prueba de F
Ho: todos los β son cero (es decir no hay linealidad en ninguna X)
Ha: al menos un β es distinto de cero. (al menos una variable independiente tiene
linealidad con la variable dependiente).
F*= MSR/MSE
Donde MSR media de cuadrados de la reg y MSE es la media de cuadrados del
error. MSR= SSR/k MSE = SSE/(n-p)
Si F*=< F luego acepto Ho
Si F*> F luego acepto Ha
S2{b} = MSE *(X´X)-1 es el estimador de la matriz de varianza-covarianza de b.
Utilizamos la tabla de análisis de varianza:
Fuente de Suma de Grados Media de Estadístico de
Variación cuadrados de libertad cuadrados prueba
SSR
Regresión SSR k MSR 
k MSR
F0 
SSE MSE
Error SSE n–p MSE 
np
Total Syy n–1

El estadístico de prueba F0 tiene una distribución F (Fisher) con v1 = k y v2 = n – p grados


de libertad en el numerador y el denominador, respectivamente.
R2: El coeficiente de determinación múltiple nos permite expresar la cantidad de
variabilidad presente en las observaciones de Y que se explica mediante el
modelo de regresión lineal múltiple, cuando se utilizan las variables independientes,
en conjunto, como variables regresoras.

El coeficiente de determinación múltiple se representa mediante R2. Toma valores


entre 0 y 1. Entre más se acerque a 1 el modelo es adecuado, ya que la mayor
cantidad en la variabilidad de los datos se explica mediante el modelo. A medida
que el coeficiente se aproxime a cero el modelo deja de ser adecuado, ya que cantidad
de la variabilidad explicada mediante el modelo es pobre.

Medidas de diagnóstico

1. Diagnóstico usando residuales:


a. Residuales vs variable independiente
b. Residuales vs Valores ajustados
c. Residuales vs Tiempo
d. Residuales vs Variable independiente con valor omitido
e. Box-plot de residuales
f. Gráfico normal de los residuales
2. Desviaciones del modelo que se pueden explorar con residuales
a. Falta de linealidad
b. Falta de constancia del término del error
c. Datos no descritos por el modelo (outliers)
d. Falta de independencia del término de error
Identificación de datos extremos en X
Uso de la matriz HAT para identificar observaciones extremas. Los valores ajustados de
Y pueden ser expresados como una combinación lineal de las observaciones Yi a través
de la matriz H. De la misma manera los residuales de mínimos cuadrados se los puede
expresar como una combinación lineal de las observaciones de Yi a través de la matriz
HAT.
La varianza y covarianza de los residuales también están relacionados a la matriz Hat
donde Hii es el elemento sith de la diagonal principal de la matriz HAT. Los elementos
de la diagonal principal hii tienen algunas propiedades útiles: los valores siempre van de
0 a 1, y su suma es p. donde p es el número de parámetros en la función de regresión
incluyendo el intercepto. En un modelo multivariado el elemento hii de la matriz HAT es
un indicador de si un valor es extremo con respecto a los valores de X. esto se llama
laverage del iésimo caso. Un valor de laverage es considerado grande si es más de dos
veces el valor del leeverage promedio.
Identificación de datos extremos en Y

 Residuales
 Residuales estandarizados
 Residuales estudentizados: ej. Cuando los residuales tienen varianzas
diferentes, se utiliza un estimador insesgado.
 Residuales con datos omitidos
 Residuales estudentizados con datos omitidos
Identificación de casos influénciales
Caso influencial: datos cuya exclusión causa cambios importantes en la función de
regresión. Influencia en los valores ajustados (DFFITS).
Como guía para la identificación de Casos Influenciales se sugiere considerarlos como
tales si (DFFITS)i>1 con grupos de datos pequeños, o >2(p/n)1/2 con grupos de datos
grandes

Diagnósticos de multicolinealidad
Informales
1. Grandes cambios en los parámetros de regresión estimados cuando una variable
o un valor es adicionado o sacado
2. Resultados no significativos en los coeficientes de regresión de variables
independientes importantes.
3. Coeficientes de regresión de signo opuesto al esperado
4. Coeficiente de correlación alto entre pares de variables independientes.
5. Intervalos de confianza muy amplios en coeficientes que representan variables
importantes.
Formales (VIF: Variance Inflation Ratio)
(VIF)k = 1- Rj2 donde Rj2 es el coeficiente de determinación múltiple cuando Xk es
regresionado contra p-2 otras variables en el modelo.
VIF = 1 cuando Rj^2 = 0
VIF > 1 cuando Rj^2 dif 0
VIF > 10 ===> Multicolinealidad
VIF = ∞ cuando Rj^2 = 0
VIF avg = SUM (VIF)k / p-1
VIF avg > o = multicolinealidad importante

Análisis de Componentes Principales


Tiene por objetivo analizar si es posible representar adecuadamente la
información de n observaciones de p variables, con un número menor de variables
construidas como combinaciones lineales de las originales.
Permite representar en un espacio de dimensión pequeña, observaciones de un espacio
general p-dimensional. Y permite transformar las variables originales, generalmente
correladas, en nuevas variables incorreladas, facilitando la interpretación de los datos.

El Análisis de Componentes Principales (ACP) es una técnica estadística de


síntesis de la información, o reducción de la dimensión (número de variables). Es decir,
ante un banco de datos con muchas variables, el objetivo será reducirlas a un menor
número perdiendo la menor cantidad de información posible. Los nuevos componentes
principales o factores serán una combinación lineal de las variables originales, y
además serán independientes entre sí.
Para estudiar las relaciones que se presentan entre las p variables correlacionadas se
puede transformar el conjunto original de variables en otro conjunto de nuevas variables
no correlacionadas entres sí, llamado conjunto de componentes principales. Las nuevas
variables son combinaciones lineales de las anteriores y se van construyendo según el
orden de importancia en cuanto a la variabilidad total que recogen de la muestra.
Interés:

 Para explicar fenómenos cuya información se cifra en muchas variables mas o


menos correlacionadas.
 Reducir la dimensión del número de variables inicialmente consideradas en el
análisis.
 Las nuevas variables pueden ordenarse según la información que llevan.
Principios básicos:

 Solo con datos cuantitativos y no es necesario establecer jerarquías ni


comprobar la normalidad.
 Si las variables originales no están correlacionadas, el análisis no tiene sentido.
 Como medida de la cantidad de información incorporada en el componente
se utiliza la varianza. Por lo que se ordenan de mayor a menor varianza.
 Se trabaja con variables tipificadas o con variables expresadas en desviaciones
respecto a la media para evitar problemas derivados de la escala.
 El nuevo conjunto de variables es igual al número de variables originales.
 Los componentes principales se expresan como una combinación lineal de las
variables originales.
Procedimiento:
1. Se evalúa la correlación entre las variables originales a través de un
análisis de la matriz de correlaciones. Un análisis de componentes principales
tiene sentido si existen altas correlaciones entre las variables, ya que esto es
indicativo de que existe información redundante.
2. Eliminar el problema de la escala, tipificando las variables para que las
escalas no agreguen varianza indeseada.
3. Obtener los componentes principales
El primer componente se calcula eligiendo el factor “a” de modo que y1 tenga la
mayor varianza posible, sujeta a la restricción de que a’1a1 =1. El segundo
componente principal se calcula obteniendo a2 de modo que la variable obtenida,
y2 esté incorrelada con y1.
Del mismo modo se eligen todas las “y” incorreladas entre sí, de manera que las
variables aleatorias obtenidas vayan teniendo cada vez menor varianza.
Entonces todos los componentes “y” (en total p) se pueden expresar como el
producto de una matriz formada por los autovectores, multiplicada por el vector
X que contiene las variables originales x1,…..,xp.
La matriz de covarianzas será una matriz en la que su diagonal contiene las
varianzas de cada componente del vector “y”, y los demás valores en cero.
a) Se calculan las raíces de la matriz de covarianzas
- La varianza de cada componente principal es igual al valor de la raíz
característica.
- La primer CP se obtiene de manera que maximice la varianza.
- Al estar tipificada la variable, la varianza de CP1 > 1
- Si las variables originales no tienen correlación, las CP coincidirán
exactamente con las variables originales.
b) Cada raíz tiene asociado un vector característico
- Los coeficientes de los vectores son los coeficientes que hay que aplicar
a las variables tipificadas para obtener los CP.
- Los coeficientes son los senos y cosenos del ángulo de rotación entre los
ejes de los CP y los ejes de las variables tipificadas.
c) Determinar las cargas factoriales
- Son las correlaciones entre cada variable con cada CP.
d) Determinar las puntuaciones tipificadas de cada componente.
Enfoque estadístico

Representar puntos p dimensionales con la mínima pérdida de información en un


espacio de dimensión uno es equivalente a sustituir las p variables originales por una
nueva variable, z1, que resuma óptimamente la información. Esto supone que la nueva
variable debe tener globalmente máxima correlación con las originales o, en otros
términos, debe permitir prever las variables originales con la máxima precisión. Esto
no será posible si la nueva variable toma un valor semejante en todos los elementos,
y, se demuestra que la condición para que podamos prever con la mínima perdida de
información los datos observados, es utilizar la variable de máxima variabilidad.
La variable escalar obtenida al proyectar los puntos sobre la recta sirve para prever bien el
conjunto de los datos. La recta indicada en la figura no es la línea de regresión de ninguna de
las variables con respecto a la otra, que se obtienen minimizando las distancias verticales u
horizontales, sino la que minimiza las distancias ortogonales o entre los puntos y la recta y se
encuentra entre ambas rectas de regresión.
Este enfoque puede extenderse para obtener el mejor subespacio resumen de los datos de
dimensión 2. Para ello, calcularemos el plano que mejor aproxima a los puntos. El problema se
reduce a encontrar una nueva dirección definida por un vector unitario, a2, que, sin pérdida de
generalidad, puede tomarse ortogonal a a1, y que verifique la condición de que la proyección
de un punto sobre este eje maximice las distancias entre los puntos proyectados.
Estadísticamente esto equivale a encontrar una segunda variable z2, incorrelada con la
anterior, y que tenga varianza máxima. En general, la componente zr(r < p) tendrá varianza
máxima entre todas las combinaciones lineales de las p variables originales.

Análisis Discriminante

Es una técnica de clasificación donde el objetivo es obtener una función capaz de


clasificar a un nuevo individuo a partir del conocimiento de los valores de ciertas
variables discriminadoras. Es una técnica de análisis multivariante que permite
asignar o clasificar nuevos individuos dentro de grupos previamente reconocidos o
definidos.
Se diferencia del análisis Clúster en que se deben conocer los grupos previamente y a
qué grupo pertenecen ciertos individuos, de los que también se conoce sus valores en
las variables discriminantes.
Planeamiento del problema

 Se parte de una tabla de datos de N individuos en que se han medido p


variables y una variable cualitativa adicional con dos o mas categorías que
define el grupo a que cada individuo pertenece.
 Matriz de dimensión N x (p + 1)
 Su objetivo es obtener un modelo matemático discriminante contra el cual
sea contrastado el perfil de un nuevo individuo cuyo grupo se desconoce
para ser asignado al grupo mas probable.
Finalidad

 Explica la pertenencia de cada caso del fichero de datos original a uno u otro
grupo en función de las variables de su perfil para comprobar su pertenencia o
no al grupo preestablecido y cuantificar el peso de cada una de ellas en la
discriminación.
 Busca predecir a qué grupo mas probable habrá de pertenecer un nuevo
individuo del que únicamente se conoce su perfil de variables.

Enfoque del Análisis


Basado en la obtención de funciones discriminantes de cálculo similar a las
ecuaciones de regresión lineal múltiple. Consiste en conseguir, a partir de las
variables explicativas, unas funciones lineales de éstas con capacidad para clasificar
otros individuos. A cada nuevo caso se aplican dichas ecuaciones y la función de mayor
valor define el grupo al que pertenece.
Se basa en técnicas de correlación canónica y de componentes principales
denominado Análisis Discriminante Canónico.
Observaciones
Relación entre el análisis de regresión y el análisis discriminante con dos grupos:
Si se realiza una recta por mínimos cuadrados tomando como variable dependiente la
variable que define la pertenencia a uno u otro grupo y como variables explicativas a las
variables clasificadoras; los coeficientes que se obtienen guardan una estricta
proporcionalidad con la función discriminante de Fisher.
Significación del estadístico
Si el valor-p asociado al estadístico es inferior al nivel de significación
(normalmente 0.05) rechazamos la hipótesis de igualdad entre los grupos, pudiendo
concluir que la información aportada por las respectivas funciones discriminantes es
estadísticamente significativa.
En aquellos casos en los que el resultado ofrezca mas de una función discriminante se
puede apreciar cómo los valores de las columnas de “autovalores” y “correlación
canónica” decrecen desde la primera hasta la última. Es la primera función la que
alcanza los valores mas altos asociándose a ésta el mayor porcentaje de variabilidad
total explicada. Normalmente son las primeras funciones las que explican la clasificación
obtenida pues son ellas las que explican la casi totalidad de varianza total acumulada.
una vez corroborada la significación estadística de las funciones discriminantes
obtenidas e identificado qué parte de la información es atribuible a cada una de ellas,
nos resta clasificar a los individuos o unidades de análisis.
Explicación gráfica:
En la figura se representan, en el
espacio bivariante definido por
dos variables, las nubes de
puntos correspondientes a dos
grupos hipotéticos. Los dos
grupos se diferencian entre sí en
ambas variables, pero no por
completo, pues, se solapan en
una pequeña región situada entre
ellos.
También se representa la función
D, que es una combinación lineal
de ambas variables. Sobre la
función D se representa la
proyección de las dos nubes de
puntos en forma de histograma.
Las dos líneas punteadas de cada uno de los histogramas representan la ubicación
proyectada de los puntos medios de cada grupo (los centroides).
El propósito del análisis discriminante consiste en aprovechar la información contenida
en las variables independientes para crear una función D combinación lineal de las
variables capaz de diferenciar lo más posible ambos grupos.
Una vez hallada la función discriminante D, carece de sentido intentar representar la
situación de los grupos en el espacio definido por las variables. Conviene centrar el
interés en la representación de la función discriminante, que es unidimensional.
Autovalor
El autovalor es el cociente entre la variación debida a las diferencias entre los
grupos (medida mediante la suma de cuadrados entre los grupos) y la variación que
se da dentro de cada grupo combinada en una única cantidad (medida mediante la
suma de cuadrados entre los grupos). Este estadístico se diferencia de la F del análisis
de varianza multivariante en que no intervienen los grados de libertad. Su interés
principal radica en que permite comparar cómo se distribuye la dispersión dentro
de los grupos cuando existe más de una función. Aunque un autovalor tiene un
mínimo de cero, no tiene un máximo, lo cual lo hace difícil de interpretar por si
solo. Por esa razón se acostumbra a utilizar el estadístico lambda de Wilks, que se
encuentra claramente relacionado con los autovalores.
La correlación canónica
Es la correlación entre la combinación lineal de las variables independientes (la función
discriminante) y una combinación lineal de variables “indicador” (unos y ceros) que
recogen la pertenencia de los sujetos a los grupos. En el caso de los grupos, la
correlación canónica es la correlación simple entre las puntuaciones discriminantes y
una variable con códigos 1 y 0 según cada caso pertenezca a un grupo o al otro. Una
correlación canónica alta indica que las variables discriminantes permiten diferenciar
entre los grupos.
El estadístico lambda de Wilks
Expresa la proporción de variabilidad total no debida a las diferencias entre los
grupos; permite contrastar la hipótesis nula de que las medias miltivariantes de los
grupos (los centroides) son iguales.
Lambda = |S| / |T|
Donde S es la matriz de varianzas-covarianzas “combinada”, calculada a partir de
las matrices de varianzas-covarianzas de cada grupo, y T es la matriz de
varianzas-covarianzas “total”, calculada sobre todos los casos como si
pertenecieran a un único grupo. Cuando los grupos se encuentren superpuestos en
el espacio multidimensional, los valores del numerador y del denominador serán
aproximadamente iguales y su cociente será cercano a 1; a medida que los grupos se
vayan separando más, la variabilidad entre grupos irá aumentando y la variabilidad
dentro de los grupos se irá haciendo comparativamente menor respecto a la variabilidad
total, disminuyendo así el valor del cociente. Por lo tanto, valores próximos a 1 indicarán
un gran parecido entre los grupos, mientras que valores próximos a 0 indicarán una gran
diferencia entre ellos.
La ventaja diagnóstica del estadístico de lambda es que, puesto que se basa en
las matrices de varianzas-covarianzas, puede calcularse antes de obtener las
funciones discriminantes.
Cálculos matriciales
Si a cada variable x le restamos la media, tenemos las variables centradas [ x- ẋ]
La suma de desvíos cuadrados total para todos los casos T = [ x- ẋ] ‘ [ x- ẋ]
La suma de desvíos cuadrados de cada grupo Wi sumados dan la matriz W (suma de
cuadrados dentro)
La matriz que contiene la suma de cuadrados entre los grupos B se calcula B= T – W
Las matrices de dispersión se obtienen dividiendo cada una de las matrices anteriores
por los grados de libertad correspondientes.
Par obtener una función que provea la máxima discriminación entre grupos, los datos
originales deben sufrir una transformación lineal tal que maximice B y minimice W. esto
se logra maximizando el cociente entre B/W pero como la división entre matrices no
existe, se procede a descomponer en autovalores y autovectores el producto de W -1B.
W-1B no es una matriz simétrica y no es de rango completo.
La clasificación de nuevos casos o el examen de los utilizados en el análisis se realiza
mediante las funciones de clasificación como funciones de regresión lineal para cada
grupo. Se calcula el valor para cada grupo y cada caso es asignado al grupo cuya
Función de Clasificación toma el valor mayor.

Cluster o conglomerados
Es una técnica de Análisis Exploratorio de datos para resolver problemas de
clasificación. Consiste en ordenar objetos en grupos (conglomerados o clusters) de
acuerdo a características que asemejan a los diferentes objetos.
Etapas:
1- Elección de las variables
2- Elección de la medida de asociación
3- Elección de la técnica Cluster
4- Validación de los resultados
Elección de las variables
Pueden ser cualitativas ordinales
Nominales
Cuantitativas discretas
Continuas
Medidas de asociación
Consiste en seleccionar una medida de distancia, lo que determinará la forma en la
similitud de los dos elementos que se calcula. Esto influirá en la forma de los clusters,
ya que algunos elementos pueden estar cerca o lejos el uno del otro en función de una
distancia.
Distancia euclídea, Minkowsky, Valor Absoluto, Mahalanobis
Los datos provienen de una o varias poblaciones con matrices de varianzas-
covarianzas.
Técnicas o Métodos Cluster
Se dividen en dos grupos:
Métodos jerárquicos: son aquellos que para formar un clúster nuevo une o separa
alguno ya existente para dar origen a otros dos de forma que se maximice una
similaridad o se minimice una distancia. Dentro de estos a su vez se clasifican en
asociativos o aglomerativos: se parte de tantos grupos como individuos y se van
agrupando hasta llegar a tener todos los individuos en un solo grupo (son rápidos); o
disociativos en los que se parte de un solo grupo que contenga a todos los individuos
y se va separando hasta llegar a formar grupos individuales.
Las clasificaciones jerárquicas pueden representarse por medio de dendogramas,
que son diagramas bidimensionales y a través de los cuales se muestra como ha sido
el proceso de unión o división de los cluster.
El “método del mínimo” busca la mínima distancia entre dos cluster y la mínima de las
distancias entre los casos de cada cluster.
El “método del máximo” o “vecino mas lejano” en el que la distancia entre dos cluster se
define como el máximo de las distancias entre los casos de los cluster.
También existen otros métodos como el “método del promedio”, el “método del
centroide” o el “método de Ward” en el que se calculan las distancias como la medida
de la similitud entre los objetos. Este método tiene por objetivo buscar la mínima
heterogeneidad total al unir dos cluster.
Métodos no jerárquicos: se clasifican los individuos en k grupos, estudiando
todas las particiones de individuos en esos k grupos y eligiendo la mejor
partición.
El “método de las k-medias” es particional, utiliza distancia euclídea, necesita el número
de clusters(k). Ubica k puntos en el espacio representado por los objetos a ser
agrupados. Estos k puntos son los centroides iniciales de cada grupo, luego asigna a
cada objeto al grupo que esté mas cercano a su centroide. Recalcula la posición de los
k centroides y repite el proceso hasta que los prototipos ya no varíen minimizando la
distancia intracluster según la métrica dada.

Вам также может понравиться