Вы находитесь на странице: 1из 19

SISTEMA DE ECUACIONES ESTRUCTURALES

PROFESOR: ROLANDO SALAZAR

CLASE 1

USO DEL RSTUDIO

 Uso del R versión 3.6.1 y el RSTUDIO.


 El R Studio tiene una interfaz más sencilla que R.

1ra ventana: ingresan códigos y programas (funciones)

2da ventana: se obtienen los resultados


3ra ventana: Se obtienen las variables que generamos o utilizamos.

4ta ventana: permite instalar paquetes, se generan las gráficas que se obtengan como
resultado del análisis estadístico, etc.

En R los objetos son las variables que utilizamos.

COMO TRABAJA R

El uso de comentarios se utiliza #. El texto ya no es procesado por R.

R distingue entre minúsculas y mayúsculas

<- = se denomina operador de asignación

Para ejecutar una instrucción se utiliza el botón RUN

Código ingresado en la primera ventana


Vector : Se obtiene utilizando c().

FUNCIONES

Mean: Para obtener el promedio.

Sintaxis

Mean(objeto)

Ejemplo:

Mean(edades)

Median: Función para obtener la mediana.

Sintaxis

Median(objeto)

Ejemplo:

Mean(edades)
AYUDA DE LA FUNCION

?boxplot

Llama a la ayuda de la función, con su sintaxis y

La doble comilla se utiliza para indicar que se ingresa un texto.

Cuando en la ayuda de una función se indica “…” consiste que hay argumentos que no están
indicados pero que si se utilizan en las funciones gráficas. Ejemplo: main

INSTALACION DE PAQUETAS

El R trabaja con paquetes por que no todas las funciones estadísticas están instaladas por
defecto.

Un paquete muy útil para graficas ggplot2

Cuando se instala un paquete, además instala todos los paquetes relacionados.

La instalación se utiliza la función “install.packages”

Se puede usar la ventana PACKAGES para paquetes externos que no están en CRAN para ello
se ingresa a la ventana, de instalación y en vez de usar el repositorio por defecto (CRAN), se
utiliza la opción Install from y se cambia el tipo de archivo y ubicación
Si se corre el nombre de una función sin parámetros muestra el código de programa

Hay interfaces que existen para R como R Comander

Instalación del Rcomander (interfaz)

Es una interfaz de R

Rcmdr

Apertura de un paquete

Se utiliza la función “library”

Ejemplo

library("ggplot2")

library("Rcmdr")

LECTURA DE DATOS

Lectura de un archivo de datos separados por comas (Excel)

datos1<-read.csv(file.choose(),header=T)
ANALISIS DE COMPONENTES PRINCIPALES

Las técnicas multivariadas trabajan con una gran cantidad de variables, algunas técnicas trabajan
solo con variables independientes y otras dependientes. En el caso del análisis de componentes
principales, trabaja con una gran cantidad de variables con el objetivo de reducir la cantidad de
dichas variables. Utiliza variables métricas (medidas). A esas nuevas variables se les conoce
como componentes principales. Para poder aplicar esta técnica, estas variables deben tener
algún grado de correlación entre ellas (grado de asociación).

SI es positiva si una variable aumenta la otra también.

El ACP es uno de los métodos que utiliza el análisis exploratorio.

Se pasa a un conjunto menor de variables llamadas componentes principales que están


incorrelacionadas.

En el caso de componentes principales a diferencia del análisis factorial no interesa la estructura


latente de las variables.

Cuando se aplica esta técnica se presentan ciertas preguntas:

 ¿Cuánta información se pierde para ganar facilidad de interpretación?


 ¿Cuántos componentes se van a retener? Usualmente son 2, 3 o 4.

Cuando se extraen los componentes se presentan ciertos criterios:

 Criterio del autovalor superior de la unidad, las variables tipificadas son estandarizadas.
Cuando tenemos variables con diferentes unidades de medida, se recomienda trabajar con
variables estadarizadas o tipificadas.
 Gráfico de sedimentación:
 Método paralelo: Que lo utiliza R que son los valores ajustados. Que se utilizan para
determinar con cuantos componentes nos quedamos.

NUEVA VENTANA DE SCRIPT EN R

FILE/NEW FILE/R SCRIPT

 COPIAR PEGAR EN LA VENTANA EL CODIGO DEL ARCHIVO ACP.TXT



Los datos están en el archivo CASO1, que está en formato de SPSS (SAV).

Se utiliza la función “read.spss”.

datos<-read.spss(file.choose(),T,to.data.frame=T)

Al colocar el to.data.frame=T) se muestra los datos en columnas.

El uso de la T mayúscula R automáticamente lo entiende como True

En algunos casos cuando el archivo a leer esta dentro de varias carpetas no lo quiere leer. Para
este caso se sugiere copiarlo en el escritorio en una carpeta en la raíz.

Estadísticos básicos

Para mostrar los estadísticos descriptivos básicos (mediana, media, etc)


stat.desc(objeto,basic=FALSE)

Correlación de Pearson

cor(datos[2:10], method="pearson")

En el ejemplo indica de la columna 2 a la 10 porque la primera indica el país (y para la correlación


no es útil.

Correlaciones altas de 0.7 hacia arriba.

Correlaciones bajas de 0.4 hacia abajo.

Test de Bartlett

Existe una prueba estadística que se llama el test de Bartlett si es significativa estas
correlaciones.

En una matriz de correlación lo que se indica es la matriz de correlación es la correlación entre


cada par de variables, en la matriz de identidad si ninguna se correlaciona con otras variables
no se justifica el ACP (la matriz de identidad formada solo de 0 y 1).

Ho: |Rp|= I (la matriz de correlación de la población es igual a la matriz de identidad)

H1: |Rp|≠ I (la matriz de correlación de la población es igual a la matriz de identidad)

α= 0.05

p_value= 3.135063e-34

p_Value<0.05 => se rechaza la Ho

Como se rechaza la Ho entonces si se justifica la aplicación del Análisis de componentes


principales.

Luego se debe definir con cuantos componentes nos quedamos, para ello se hace la estimación
del ACP.

ACP

Se utiliza la función PCA.

fit<-PCA(datos[2:10],scale.unit=TRUE,ncp=9,graph=F)
scale.unit=TRUE : indica que se deben estandarizar los valores

ncp=9 : Indica los componentes

Criterio de autovalor

Son los eigenvalue (3ra columna), son los autovalores. Nos quedamos con los valores mayores
de 1. (en el ejemplo los componentes 1,2, y 3).

Grafica de sedimentación

Tiende a ser subjetiva, es quedarnos con tantos componentes donde la línea tiende a
nivelearse, cuando no hay una caída mas pronunciada.

fviz_eig(fit, geom="line")+

theme_grey()
De 3 a 4 componentes.

Método paralelo

El método paralelo es iterativo. Por lo general debe ser una gran cantidad, no hay un valor
optimo, podemos tomar 5000. Se recomienda que las iteraciones no sean pequeñas.

paran(datos[2:10], iterations=5000,graph=TRUE,color=FALSE)
En el grafico interesa los autovalores ajustados (ajusted EV retained)

Se trabaja con 2 o 3 componentes y se analiza cómo se comporta mejor y que dice la teoría.

Correlaciones de las variables de las dimensiones

Para tener las correlaciones de las variables con las dimensiones se aplica fit., que tiene los
valores del calculo del PCA

fit$var$cor[,1:2]

Como se va a trabajar tentativamente con dos componentes por ello se coloca [,1:2]
Cuanto asocia a cada componente esto depende de la magnitud de la correlación.

Independientemente de que sea positiva o negativa cual tiene una mayor correlación.

Dim.1 Dim.2
Agricultura -0.9755452 -0.0909600
Mineria -0.2119704 0.8680503
Industria 0.4967865 0.6451644
Energía 0.4913828 0.5202499
Construccion 0.5166372 0.3259305
ServiciosInd 0.7857710 -0.3276420
Finanzas 0.6915111 -0.4852026
ServiciosPer 0.7029305 -0.3210492
Transporte 0.5093258 0.3325506

Aquí no interesa mucho como se denominaría la dimensión.

Por cada dimensión se podría comentar o interpretar de la siguiente manera en base a que la
correlación sea positiva o negativa:

 Primera componente correlacionada en forma negativa con Agricultura y minería.


 Distingue países con sistemas económicos basados en el sector primario frente a
economías más industriales.
 La segunda componente contrapone países con mayor o menor desarrollo en su sector
servicios.

En R dimensiones o componentes son sinónimos.

Representación grafica de variables

fit<-PCA(datos[2:10],scale.unit=TRUE,ncp=9,graph=T)
Para una mejora estética

fviz_pca_var(fit, col.var="contrib")+

scale_color_gradient2(low="white", mid="blue",high="red", midpoint=10.0)+

theme_gray()
El factorial exploratorio utiliza básicamente las mismas reglas.
ANALISIS FACTORIAL EXPLORATORIO

También permite reducir el número de variables o dimensiones.

El objetivo es similar al ACP, debe ser variables métricas.

Se intenta detectar si hay variables latentes

Variables manifiestas (indicadores).

Como no son medidas de manera directa son llamadas variables latentes o no observables.

Se indica exploratorio porque no tenemos una idea de cuantos factores vamos a utilizar.

Factores = círculos

Indicadores= cuadrados

Las variables originales son una combinación lineal de las variables latentes.

METODOS PARA LA EXTRACCION DE FACTORES

 Método de los componentes principales


 Método de los ejes principales
 Método de máxima verosimilitud

La literatura indica que no hay diferencias pequeñas no significativas entre los métodos y el
número de factores encontrados.

DETERMINACION DEL NUMERO DE FACTORES

Similar al ACP

Correlación de Pearson

R<-cor(Datos[,3:12],method="pearson")

Test Bartlett

cortest.bartlett(R,n=95)

Ho: |Rp|= I (la matriz de correlación de la población es igual a la matriz de identidad)


H1: |Rp|≠ I (la matriz de correlación de la población es igual a la matriz de identidad)

α= 0.05

p_value= 1.886679e-191

p_Value<0.05 => se rechaza la Ho

Como se rechaza la Ho entonces si se justifica la aplicación del Análisis de componentes


principales.

INDICADORES

Constrate de esfericidad de Bartlett

KMO

Mide la idoneidad de los datos para realizar un análisis factorial comparando los valores de los
coeficientes de correlación observados con los coeficientes de correlación parcial.

Si todas las variables se prestan para realizar un análisis factorial.

Lo óptimo es que sea KMO >= 0.5

RANGO INTERPRETACION
0.9 y 1 Los resultados del modelo factorial serán Excelentes
0.8 y 0.9 Los resultados del modelo factorial serán Buenos
0.7 y 0.8 Los resultados del modelo factorial serán Aceptables
0.6 y 0.7 Los resultados del modelo factorial serán Mediocres o regulares
0.5 y 0.6 Los resultados del modelo factorial serán Malos
< 0.5 Los resultados del modelo factorial serán Inaceptables o muy Malos
FUENTE: Kaiser (1974 en Visauta, 1998)

Análisis de adecuación individual (MSA)


Todas son adecuadas. Si una variable tiene 0.5 o menos se debe excluir y volver a procesar
desde el inicio.

SELECCIÓN DEL NUMERO DE FACTORES

Método paralelo

paran(Datos[3:12], iterations=5000,graph=TRUE,color=FALSE)
Estimación por componentes principales

El número de factores será igual al número de variables.

fit_1<-principal(cor(Datos[,3:12]),nfactors=10)

Por eso el numero 10 es por el número de variables

Una vez determinado el numero de factores mayores de 1 se ajusta la formula

fit_1<-principal(cor(Datos[,3:12]),nfactors=3)
Un punto importante cuando se realiza investigación es la varianza acumulada (Cumulative
var)

Esto es un resultado de la estimación con ejes principales

ROTACION FACTORIAL

Вам также может понравиться