Академический Документы
Профессиональный Документы
Культура Документы
CLASE 1
4ta ventana: permite instalar paquetes, se generan las gráficas que se obtengan como
resultado del análisis estadístico, etc.
COMO TRABAJA R
FUNCIONES
Sintaxis
Mean(objeto)
Ejemplo:
Mean(edades)
Sintaxis
Median(objeto)
Ejemplo:
Mean(edades)
AYUDA DE LA FUNCION
?boxplot
Cuando en la ayuda de una función se indica “…” consiste que hay argumentos que no están
indicados pero que si se utilizan en las funciones gráficas. Ejemplo: main
INSTALACION DE PAQUETAS
El R trabaja con paquetes por que no todas las funciones estadísticas están instaladas por
defecto.
Se puede usar la ventana PACKAGES para paquetes externos que no están en CRAN para ello
se ingresa a la ventana, de instalación y en vez de usar el repositorio por defecto (CRAN), se
utiliza la opción Install from y se cambia el tipo de archivo y ubicación
Si se corre el nombre de una función sin parámetros muestra el código de programa
Es una interfaz de R
Rcmdr
Apertura de un paquete
Ejemplo
library("ggplot2")
library("Rcmdr")
LECTURA DE DATOS
datos1<-read.csv(file.choose(),header=T)
ANALISIS DE COMPONENTES PRINCIPALES
Las técnicas multivariadas trabajan con una gran cantidad de variables, algunas técnicas trabajan
solo con variables independientes y otras dependientes. En el caso del análisis de componentes
principales, trabaja con una gran cantidad de variables con el objetivo de reducir la cantidad de
dichas variables. Utiliza variables métricas (medidas). A esas nuevas variables se les conoce
como componentes principales. Para poder aplicar esta técnica, estas variables deben tener
algún grado de correlación entre ellas (grado de asociación).
Criterio del autovalor superior de la unidad, las variables tipificadas son estandarizadas.
Cuando tenemos variables con diferentes unidades de medida, se recomienda trabajar con
variables estadarizadas o tipificadas.
Gráfico de sedimentación:
Método paralelo: Que lo utiliza R que son los valores ajustados. Que se utilizan para
determinar con cuantos componentes nos quedamos.
datos<-read.spss(file.choose(),T,to.data.frame=T)
En algunos casos cuando el archivo a leer esta dentro de varias carpetas no lo quiere leer. Para
este caso se sugiere copiarlo en el escritorio en una carpeta en la raíz.
Estadísticos básicos
Correlación de Pearson
cor(datos[2:10], method="pearson")
Test de Bartlett
Existe una prueba estadística que se llama el test de Bartlett si es significativa estas
correlaciones.
α= 0.05
p_value= 3.135063e-34
Luego se debe definir con cuantos componentes nos quedamos, para ello se hace la estimación
del ACP.
ACP
fit<-PCA(datos[2:10],scale.unit=TRUE,ncp=9,graph=F)
scale.unit=TRUE : indica que se deben estandarizar los valores
Criterio de autovalor
Son los eigenvalue (3ra columna), son los autovalores. Nos quedamos con los valores mayores
de 1. (en el ejemplo los componentes 1,2, y 3).
Grafica de sedimentación
Tiende a ser subjetiva, es quedarnos con tantos componentes donde la línea tiende a
nivelearse, cuando no hay una caída mas pronunciada.
fviz_eig(fit, geom="line")+
theme_grey()
De 3 a 4 componentes.
Método paralelo
El método paralelo es iterativo. Por lo general debe ser una gran cantidad, no hay un valor
optimo, podemos tomar 5000. Se recomienda que las iteraciones no sean pequeñas.
paran(datos[2:10], iterations=5000,graph=TRUE,color=FALSE)
En el grafico interesa los autovalores ajustados (ajusted EV retained)
Se trabaja con 2 o 3 componentes y se analiza cómo se comporta mejor y que dice la teoría.
Para tener las correlaciones de las variables con las dimensiones se aplica fit., que tiene los
valores del calculo del PCA
fit$var$cor[,1:2]
Como se va a trabajar tentativamente con dos componentes por ello se coloca [,1:2]
Cuanto asocia a cada componente esto depende de la magnitud de la correlación.
Independientemente de que sea positiva o negativa cual tiene una mayor correlación.
Dim.1 Dim.2
Agricultura -0.9755452 -0.0909600
Mineria -0.2119704 0.8680503
Industria 0.4967865 0.6451644
Energía 0.4913828 0.5202499
Construccion 0.5166372 0.3259305
ServiciosInd 0.7857710 -0.3276420
Finanzas 0.6915111 -0.4852026
ServiciosPer 0.7029305 -0.3210492
Transporte 0.5093258 0.3325506
Por cada dimensión se podría comentar o interpretar de la siguiente manera en base a que la
correlación sea positiva o negativa:
fit<-PCA(datos[2:10],scale.unit=TRUE,ncp=9,graph=T)
Para una mejora estética
fviz_pca_var(fit, col.var="contrib")+
theme_gray()
El factorial exploratorio utiliza básicamente las mismas reglas.
ANALISIS FACTORIAL EXPLORATORIO
Como no son medidas de manera directa son llamadas variables latentes o no observables.
Se indica exploratorio porque no tenemos una idea de cuantos factores vamos a utilizar.
Factores = círculos
Indicadores= cuadrados
Las variables originales son una combinación lineal de las variables latentes.
La literatura indica que no hay diferencias pequeñas no significativas entre los métodos y el
número de factores encontrados.
Similar al ACP
Correlación de Pearson
R<-cor(Datos[,3:12],method="pearson")
Test Bartlett
cortest.bartlett(R,n=95)
α= 0.05
p_value= 1.886679e-191
INDICADORES
KMO
Mide la idoneidad de los datos para realizar un análisis factorial comparando los valores de los
coeficientes de correlación observados con los coeficientes de correlación parcial.
RANGO INTERPRETACION
0.9 y 1 Los resultados del modelo factorial serán Excelentes
0.8 y 0.9 Los resultados del modelo factorial serán Buenos
0.7 y 0.8 Los resultados del modelo factorial serán Aceptables
0.6 y 0.7 Los resultados del modelo factorial serán Mediocres o regulares
0.5 y 0.6 Los resultados del modelo factorial serán Malos
< 0.5 Los resultados del modelo factorial serán Inaceptables o muy Malos
FUENTE: Kaiser (1974 en Visauta, 1998)
Método paralelo
paran(Datos[3:12], iterations=5000,graph=TRUE,color=FALSE)
Estimación por componentes principales
fit_1<-principal(cor(Datos[,3:12]),nfactors=10)
fit_1<-principal(cor(Datos[,3:12]),nfactors=3)
Un punto importante cuando se realiza investigación es la varianza acumulada (Cumulative
var)
ROTACION FACTORIAL