Вы находитесь на странице: 1из 45

Introduccin al Anlisis

Multivariable de Datos

Ing. Carlos Ignacio Sarmiento


Garca

RKWard

Qu es multivariado?
El mundo es un sistema complejo: se requieren
mltiples mediciones para un anlisis completo.
Por ejemplo el clima:

Presin
atmosfrica

Temperatura

Spencer, N. H. (2013). Essentials of


multivariate data analysis. CRC Press.

Velocidad
del viento

Anlisis
multivariable

Definicin de Anlisis Multivariado


El Anlisis Multivariado de Datos se define como la
tcnica estadstica usada para analizar datos que
provienen de ms de una sola variable.
Se usan para:

Investigacin de mercado.
Control de calidad en general.
Optimizacin de procesos de control.
Investigacin y desarrollo.
1. Kessler, W. (2007). Multivariate datenanalyse: fr die pharma, bio-und
Prozessanalytik. John Wiley & Sons.

Representacin grfica de datos


multivariados
Grficas de dispersin.
Histogramas
comparables.
Grfica de caja mltipes.
Grfica de reja.
Grficas de estrella.
Grficas de Andrew.
Grfica de componentes
principales.

Grficas de dispersin
Relaciona dos variables, una en
cada eje.

ttps://www.mathsisfun.com/data/scatter-xy-plots.html (1-10-2016)

Modelos de
correlacin

o ms dimensiones

https://www.curveexpert.net/gallery-graphexpert-pro/ (1-10-2016)

Clasificadores:
Redes neuronales
Algoritmos
genticos
K-means

Mller, M., Gao, L. M., Mill, R. R., Liu, J., Zhang, D.


Q., Poudel, R. C., & Li, D. Z. (2013). A
multidisciplinary approach reveals hidden
taxonomic diversity in the morphologically
challenging Taxus wallichiana complex. Taxon,

Histogramas comparables
Anlisis visual para comparar de manera general frecuencias o
densidades.
Debemos asegurarnos que los eje X y Y correspondan para la
misma magnitud en todas las grficas.

Spencer, N. H. (2013). Essentials of multivariate


data analysis. CRC Press.

http://siddhumehta.blogspot.mx/2011/06/custom-visualizations-in-ssrs-for.htm

Grficas de caja mltiples


Creamos grficas de caja separadas por cada variable
de inters.

Spencer, N. H. (2013). Essentials of multivariate


data analysis. CRC Press.

Grficas de reja
No hay una definicin particular, pero contienen tpicamente
cruzan variables e intersectan en una grfica de dispersin.

Spencer, N. H. (2013). Essentials of multivariate


data analysis. CRC Press.

Grficas de estrella
Cada observacin consiste de un punto de donde parten
rayos.
La distancia de los rayos representa los valores
medidos para cada caso.

Spencer, N. H. (2013). Essentials of multivariate


data analysis. CRC Press.

Grficas de Andrew
Produce una curva donde involucra todas las variables
de inters:

La primer variable (x1) tiene ms peso que las otras.

Spencer, N. H. (2013). Essentials of multivariate


data analysis. CRC Press.

Grficas de componentes
independientes
Obtienen los componentes principales de una serie de datos.
De la misma manera que x1, en la grfica de Andrew, el
primer componente contiene mayor informacin que los
restantes.
Cada componente principal es asociado con una cantidad
denominada eigenvalor, relacionado a la cantidad de
informacin de cada componente principal.

Spencer, N. H. (2013). Essentials of multivariate


data analysis. CRC Press.

17%

62%

Spencer, N. H. (2013). Essentials of multivariate


data analysis. CRC Press.

Pruebas de significancia
multivariada
Prueba T2 de Hotelling.
Prueba de Lambda de Wilk
(MANOVA de una va).

Caso a estudiar

Datos: https://www.crcpress.com/Essentials-of-Multivariate-DataAnalysis/Spencer/p/book/9781466584785

n=48

n=52
N=100

Variables a
estudiar:
Presin sistlica
Presin
diastlica
Frecuencia
cardiaca

H0: No existe diferencia estadsticamente


significativa en las variables entre hombres
y mujeres.
H1: H0 no es verdad.

Spencer, N. H. (2013). Essentials of multivariate


data analysis. CRC Press.

Prueba univariadas (t-Student)


Se aplica t-Student para cada variable; hombres v.s.
mujeres.

H0: T
H0: F
H0: T
NO HAY SUFICIENTE EVIDENCIA PARA RECHAZAR H1

Ejemplo en R para las pruebas t-Student

Vector de medias

Varianza

Consiste en la media de cada variable.

Matriz de covarianzas

Covarianza

La matriz de covarianza mide el grado de relacin entre


las variables

Prueba T2 de Hotelling
Prueba para comparar dos vectores de
medias. Equivalente a la t-Student en
anlisis univariado.
Supuestos:
Los casos de los datos deben ser independientes unos
de otros: Seleccin aleatoria, no casos emparentados.
Distribucin normal: Cada variable a analizar debe
pasar la prueba de normalidad (ejemplo: Shapiro-Wilk).
Las matrices de covarianza de las dos poblaciones

Spencer, N. H. (2013). Essentials of multivariate


data analysis. CRC Press.

1. Obtener las matrices de covarianza, los vectores de


medias y las n para cada grupo:

2. Combinar las matrices de varianza mediante el promedio


ponderado:
Frmula univariada
Frmula multivariada

Spencer, N. H. (2013). Essentials of multivariate


data analysis. CRC Press.

3. Calcular la T2 de Hotelling mediante la siguiente


frmula:

Si:

Por lo tanto:

Entonces:

4. Calcular da distribucin F mediante la siguiente frmula:

Donde:
p = 3 (nmero de variables)

Por lo tanto:
Spencer, N. H. (2013). Essentials of multivariate
data analysis. CRC Press.

5. Obtener el valor de p:

= 3, (52+48-3-1)
df = 3, 96

p-value0.21

NO HAY SUFICIENTE EVIDENCIA PARA RECHAZAR

https://graphpad.com/quickcalcs/PValue1.cfm (4-10-2016)

Ejemplo en R para de la prueba T2 de Hotelling

Prueba Lambda de Wilks

Prueba para comparar ms de dos vectores de medias

quivalente a la ANOVA de una va en anlisis univariad


Supuestos:
Los casos de los datos deben ser independientes unos
de otros: Seleccin aleatoria, no casos emparentados.
Distribucin normal: Cada variable a analizar debe
pasar la prueba de normalidad (ejemplo: Shapiro-Wilk).
Las matrices de covarianza de las dos poblaciones
deben ser iguales.
Spencer, N. H. (2013). Essentials of multivariate
data analysis. CRC Press.

Frmulas para la prueba de Lambda de Wilks:


Matriz de suma de cuadrados y productos cruz

Matriz de varianzas y covarianzas

Varianza:

Donde:
n: nmero de casos
p: nmero de variables a ser
examinadas
m: nmero de grupos

Covarianza:

Grados de libertad

Spencer, N. H. (2013). Essentials of multivariate


data analysis. CRC Press.

Caso a estudiar:
Datos: https://www.crcpress.com/Essentials-of-Multivariate-DataAnalysis/Spencer/p/book/9781466584785

Grupos:

Variables a estudiar:

Nunca fumaron
N=100

Ex-fumadores
Fumadores
ocasionales
Fumadores
activos

Presin
sistlica
Presin
diastlica
Frecuencia
cardiaca

H0: No existe diferencia estadsticamente


significativa en las variables entre los
cuatro grupos.
H1: H0 no es verdad.

Spencer, N. H. (2013). Essentials of multivariate


data analysis. CRC Press.

1. Obtenemos los vectores de medias y las matrices de covarianza


Vectores de medias:

Matrices de covarianza:

Spencer, N. H. (2013). Essentials of multivariate


data analysis. CRC Press.

Ejemplo en R para las calcular vectores de medias

Ejemplo en R para las calcular la matriz de varianzas

2. Calculamos las matrices W y T:

3. Calculamos las determinantes de las matrices W y T y obtenemos , y df:

df= 3(41)= 9

Spencer, N. H. (2013). Essentials of multivariate


data analysis. CRC Press.

4. Comparamos los resultados en una tabla 2 y

obtenemos p-value
df = 9

https://graphpad.com/quickcalcs/PValue1.cfm (4-10-2016)

Conclusin: Debido a que p<<0.05, concluimos que existe una diferencia


estadsticamente significativa entre los 4 grupos en las variables de presin
sistlica, presin diastlica y frecuencia cardiaca

Se rechaza H .

Spencer, N. H. (2013). Essentials of multivariate


data analysis. CRC Press.

Ejemplo en R para las calcular la matriz de varianzas

Anlisis de los Componentes


Principales (PCA)
Reduce una serie de datos con variables
inter-correlacionadas a una pequea serie de
datos no relacionados que explican la
variabilidad general: Reducir la
dimensionalidad de los datos.
Los componentes principales (CP) son una
combinacin lineal de las variables originales.
Cada CP explica una proporcin de la
variabilidad total.
El primer CP explica la mxima cantidad de
varianza.
Peacock, J., & Peacock, P. (2011). Oxford handbook of medical statistics. Oxford
University Press.

http://www.sthda.com/english/wiki/principal-c
omponent-analysis-the-basics-you-should-readr-software-and-data-mining
(5-10-2016)

Practicidades

de PCA

Proporciona un CP para cada sujeto, convirtindolo en


una nueva variable.
Identifica patrones ocultos en un conjunto de datos.
Identifica variables correlacionadas.
PCA reduce todos los datos a un nuevo conjunto
de datos que explican la varianza de los datos
originales.

http://www.sthda.com/english/wiki/principal-c
omponent-analysis-the-basics-you-should-readr-software-and-data-mining
(5-10-2016)

Ecuaciones de los CP
Las variables originales x1, x2, xp.
PCA produce p componentes independientes (y 1, y2, yp).
bij son simples coeficientes llamados eigenvectores.
Con 2 o 3 CP es posible explicar el 80% de la variabilidad
total de los datos.

Peacock, J., & Peacock, P. (2011). Oxford handbook of medical statistics. Oxford
University Press.

Caso a estudiar:
Largo y ancho del spalo contra largo y ancho
del ptalo
n=150

http://www.sthda.com/english/wiki/principal-c
omponent-analysis-the-basics-you-should-readr-software-and-data-mining
(5-10-2016)

1. Se preparan los datos:


Centrar los datos: sustraer la media de cada variable.
Escalar los datos: dividir cada variable entre la desviacin estndar.

http://www.sthda.com/english/wiki/principa
omponent-analysis-the-basics-you-shouldr-software-and-data-mining
(5-10-2016)

2. Calcular la matriz de correlacin.


Qu tan fuerte es la relacin entre un grupo de variables.

http://www.sthda.com/english/wiki/principal
omponent-analysis-the-basics-you-should-re
r-software-and-data-mining
(5-10-2016)

3. Calcular los eigenvalores y los eigenvectores de la matriz de correlacin.

http://www.sthda.com/english/wiki/principal
omponent-analysis-the-basics-you-should-re
r-software-and-data-mining
(5-10-2016)

5. Calcular los CP:


5.1. Obtener la matriz transpuesta de los eigenvectores.
5.2. Transponer los datos obtenidos en 5.1.
5.3. Multiplicar los eigenvectores con lo obtenido en 5.2.
5.4. Transponer lo obtenido en 5.3.
5.3:
5.1:

5.2:

5.4:

http://www.sthda.com/english/wiki/principalomponent-analysis-the-basics-you-should-re
r-software-and-data-mining
(5-10-2016)

6. Grfica de los componentes independientes.

https://cran.r-project.org/web/packages/ggfortify/vignettes/plot_pca.html (5-102016)

Ejemplo en R para PCA (camino largo)

Alternativa para calcular PCA en R (camino corto)

Muchas gracias

Вам также может понравиться