Sistema de Ecuaciones Estructurales

SISTEMA DE ECUACIONES ESTRUCTURALES
PROFESOR: ROLANDO SALAZAR
CLASE 1
USO DEL RSTUDIO
 Uso del R versión 3.6.1 y el RSTUDIO.

 El R Studio tiene una interfaz más sencilla que R.
1ra ventana: ingresan códigos y programas (funciones)
2da ventana: se obtienen los resultados

3ra ventana: Se obtienen las variables que generamos o utilizamos.
4ta ventana: permite instalar paquetes, se generan las gráficas que se obtengan como
resultado del análisis estadístico, etc.
En R los objetos son las variables que utilizamos.
COMO TRABAJA R
El uso de comentarios se utiliza #. El texto ya no es procesado por R.
R distingue entre minúsculas y mayúsculas
<- = se denomina operador de asignación
Para ejecutar una instrucción se utiliza el botón RUN
Código ingresado en la primera ventana

Vector : Se obtiene utilizando c().
FUNCIONES
Mean: Para obtener el promedio.
Sintaxis
Mean(objeto)
Ejemplo:
Mean(edades)
Median: Función para obtener la mediana.
Sintaxis
Median(objeto)
Ejemplo:
Mean(edades)
AYUDA DE LA FUNCION
?boxplot
Llama a la ayuda de la función, con su sintaxis y
La doble comilla se utiliza para indicar que se ingresa un texto.
Cuando en la ayuda de una función se indica “…” consiste que hay argumentos que no están
indicados pero que si se utilizan en las funciones gráficas. Ejemplo: main
INSTALACION DE PAQUETAS
El R trabaja con paquetes por que no todas las funciones estadísticas están instaladas por
defecto.
Un paquete muy útil para graficas ggplot2
Cuando se instala un paquete, además instala todos los paquetes relacionados.
La instalación se utiliza la función “install.packages”
Se puede usar la ventana PACKAGES para paquetes externos que no están en CRAN para ello
se ingresa a la ventana, de instalación y en vez de usar el repositorio por defecto (CRAN), se
utiliza la opción Install from y se cambia el tipo de archivo y ubicación
Si se corre el nombre de una función sin parámetros muestra el código de programa
Hay interfaces que existen para R como R Comander
Instalación del Rcomander (interfaz)
Es una interfaz de R
Rcmdr
Apertura de un paquete
Se utiliza la función “library”
Ejemplo
library("ggplot2")
library("Rcmdr")
LECTURA DE DATOS
Lectura de un archivo de datos separados por comas (Excel)
datos1<-read.csv(file.choose(),header=T)
ANALISIS DE COMPONENTES PRINCIPALES
Las técnicas multivariadas trabajan con una gran cantidad de variables, algunas técnicas trabajan
solo con variables independientes y otras dependientes. En el caso del análisis de componentes
principales, trabaja con una gran cantidad de variables con el objetivo de reducir la cantidad de
dichas variables. Utiliza variables métricas (medidas). A esas nuevas variables se les conoce
como componentes principales. Para poder aplicar esta técnica, estas variables deben tener
algún grado de correlación entre ellas (grado de asociación).
SI es positiva si una variable aumenta la otra también.
El ACP es uno de los métodos que utiliza el análisis exploratorio.
Se pasa a un conjunto menor de variables llamadas componentes principales que están

incorrelacionadas.
En el caso de componentes principales a diferencia del análisis factorial no interesa la estructura

latente de las variables.
Cuando se aplica esta técnica se presentan ciertas preguntas:
 ¿Cuánta información se pierde para ganar facilidad de interpretación?

 ¿Cuántos componentes se van a retener? Usualmente son 2, 3 o 4.
Cuando se extraen los componentes se presentan ciertos criterios:
 Criterio del autovalor superior de la unidad, las variables tipificadas son estandarizadas.
Cuando tenemos variables con diferentes unidades de medida, se recomienda trabajar con
variables estadarizadas o tipificadas.
 Gráfico de sedimentación:
 Método paralelo: Que lo utiliza R que son los valores ajustados. Que se utilizan para
determinar con cuantos componentes nos quedamos.
NUEVA VENTANA DE SCRIPT EN R
FILE/NEW FILE/R SCRIPT
 COPIAR PEGAR EN LA VENTANA EL CODIGO DEL ARCHIVO ACP.TXT


Los datos están en el archivo CASO1, que está en formato de SPSS (SAV).
Se utiliza la función “read.spss”.
datos<-read.spss(file.choose(),T,to.data.frame=T)
Al colocar el to.data.frame=T) se muestra los datos en columnas.
El uso de la T mayúscula R automáticamente lo entiende como True
En algunos casos cuando el archivo a leer esta dentro de varias carpetas no lo quiere leer. Para
este caso se sugiere copiarlo en el escritorio en una carpeta en la raíz.
Estadísticos básicos
Para mostrar los estadísticos descriptivos básicos (mediana, media, etc)

stat.desc(objeto,basic=FALSE)
Correlación de Pearson
cor(datos[2:10], method="pearson")
En el ejemplo indica de la columna 2 a la 10 porque la primera indica el país (y para la correlación

no es útil.
Correlaciones altas de 0.7 hacia arriba.
Correlaciones bajas de 0.4 hacia abajo.
Test de Bartlett
Existe una prueba estadística que se llama el test de Bartlett si es significativa estas
correlaciones.
En una matriz de correlación lo que se indica es la matriz de correlación es la correlación entre

cada par de variables, en la matriz de identidad si ninguna se correlaciona con otras variables
no se justifica el ACP (la matriz de identidad formada solo de 0 y 1).
Ho: |Rp|= I (la matriz de correlación de la población es igual a la matriz de identidad)
H1: |Rp|≠ I (la matriz de correlación de la población es igual a la matriz de identidad)
α= 0.05
p_value= 3.135063e-34
p_Value<0.05 => se rechaza la Ho
Como se rechaza la Ho entonces si se justifica la aplicación del Análisis de componentes

principales.
Luego se debe definir con cuantos componentes nos quedamos, para ello se hace la estimación
del ACP.
ACP
Se utiliza la función PCA.
fit<-PCA(datos[2:10],scale.unit=TRUE,ncp=9,graph=F)
scale.unit=TRUE : indica que se deben estandarizar los valores
ncp=9 : Indica los componentes
Criterio de autovalor
Son los eigenvalue (3ra columna), son los autovalores. Nos quedamos con los valores mayores
de 1. (en el ejemplo los componentes 1,2, y 3).
Grafica de sedimentación
Tiende a ser subjetiva, es quedarnos con tantos componentes donde la línea tiende a
nivelearse, cuando no hay una caída mas pronunciada.
fviz_eig(fit, geom="line")+
theme_grey()
De 3 a 4 componentes.
Método paralelo
El método paralelo es iterativo. Por lo general debe ser una gran cantidad, no hay un valor
optimo, podemos tomar 5000. Se recomienda que las iteraciones no sean pequeñas.
paran(datos[2:10], iterations=5000,graph=TRUE,color=FALSE)
En el grafico interesa los autovalores ajustados (ajusted EV retained)
Se trabaja con 2 o 3 componentes y se analiza cómo se comporta mejor y que dice la teoría.
Correlaciones de las variables de las dimensiones
Para tener las correlaciones de las variables con las dimensiones se aplica fit., que tiene los
valores del calculo del PCA
fit$var$cor[,1:2]
Como se va a trabajar tentativamente con dos componentes por ello se coloca [,1:2]
Cuanto asocia a cada componente esto depende de la magnitud de la correlación.
Independientemente de que sea positiva o negativa cual tiene una mayor correlación.
Dim.1 Dim.2
Agricultura -0.9755452 -0.0909600
Mineria -0.2119704 0.8680503
Industria 0.4967865 0.6451644
Energía 0.4913828 0.5202499
Construccion 0.5166372 0.3259305
ServiciosInd 0.7857710 -0.3276420
Finanzas 0.6915111 -0.4852026
ServiciosPer 0.7029305 -0.3210492
Transporte 0.5093258 0.3325506
Aquí no interesa mucho como se denominaría la dimensión.
Por cada dimensión se podría comentar o interpretar de la siguiente manera en base a que la
correlación sea positiva o negativa:
 Primera componente correlacionada en forma negativa con Agricultura y minería.

 Distingue países con sistemas económicos basados en el sector primario frente a
economías más industriales.
 La segunda componente contrapone países con mayor o menor desarrollo en su sector
servicios.
En R dimensiones o componentes son sinónimos.
Representación grafica de variables
fit<-PCA(datos[2:10],scale.unit=TRUE,ncp=9,graph=T)
Para una mejora estética
fviz_pca_var(fit, col.var="contrib")+
scale_color_gradient2(low="white", mid="blue",high="red", midpoint=10.0)+
theme_gray()
El factorial exploratorio utiliza básicamente las mismas reglas.
ANALISIS FACTORIAL EXPLORATORIO
También permite reducir el número de variables o dimensiones.
El objetivo es similar al ACP, debe ser variables métricas.
Se intenta detectar si hay variables latentes
Variables manifiestas (indicadores).
Como no son medidas de manera directa son llamadas variables latentes o no observables.
Se indica exploratorio porque no tenemos una idea de cuantos factores vamos a utilizar.
Factores = círculos
Indicadores= cuadrados
Las variables originales son una combinación lineal de las variables latentes.
METODOS PARA LA EXTRACCION DE FACTORES
 Método de los componentes principales

 Método de los ejes principales
 Método de máxima verosimilitud
La literatura indica que no hay diferencias pequeñas no significativas entre los métodos y el
número de factores encontrados.
DETERMINACION DEL NUMERO DE FACTORES
Similar al ACP
Correlación de Pearson
R<-cor(Datos[,3:12],method="pearson")
Test Bartlett
cortest.bartlett(R,n=95)
Ho: |Rp|= I (la matriz de correlación de la población es igual a la matriz de identidad)

H1: |Rp|≠ I (la matriz de correlación de la población es igual a la matriz de identidad)
α= 0.05
p_value= 1.886679e-191
p_Value<0.05 => se rechaza la Ho
Como se rechaza la Ho entonces si se justifica la aplicación del Análisis de componentes

principales.
INDICADORES
Constrate de esfericidad de Bartlett
KMO
Mide la idoneidad de los datos para realizar un análisis factorial comparando los valores de los
coeficientes de correlación observados con los coeficientes de correlación parcial.
Si todas las variables se prestan para realizar un análisis factorial.
Lo óptimo es que sea KMO >= 0.5
RANGO INTERPRETACION
0.9 y 1 Los resultados del modelo factorial serán Excelentes
0.8 y 0.9 Los resultados del modelo factorial serán Buenos
0.7 y 0.8 Los resultados del modelo factorial serán Aceptables
0.6 y 0.7 Los resultados del modelo factorial serán Mediocres o regulares
0.5 y 0.6 Los resultados del modelo factorial serán Malos
< 0.5 Los resultados del modelo factorial serán Inaceptables o muy Malos
FUENTE: Kaiser (1974 en Visauta, 1998)
Análisis de adecuación individual (MSA)

Todas son adecuadas. Si una variable tiene 0.5 o menos se debe excluir y volver a procesar
desde el inicio.
SELECCIÓN DEL NUMERO DE FACTORES
Método paralelo
paran(Datos[3:12], iterations=5000,graph=TRUE,color=FALSE)
Estimación por componentes principales
El número de factores será igual al número de variables.
fit_1<-principal(cor(Datos[,3:12]),nfactors=10)
Por eso el numero 10 es por el número de variables
Una vez determinado el numero de factores mayores de 1 se ajusta la formula
fit_1<-principal(cor(Datos[,3:12]),nfactors=3)
Un punto importante cuando se realiza investigación es la varianza acumulada (Cumulative
var)
Esto es un resultado de la estimación con ejes principales
ROTACION FACTORIAL

Sistema de Ecuaciones Estructurales - Clase1

Загружено:

Сведения о документе

Исходное описание:

Оригинальное название

Авторское право

Доступные форматы

Поделиться этим документом

Поделиться или встроить документ

Параметры публикации

Этот документ был вам полезен?

Это неприемлемый материал?

Авторское право:

Доступные форматы

Sistema de Ecuaciones Estructurales - Clase1

Загружено:

Авторское право:

Доступные форматы

PROFESOR: ROLANDO SALAZAR

USO DEL RSTUDIO

 Uso del R versión 3.6.1 y el RSTUDIO.

1ra ventana: ingresan códigos y programas (funciones)

2da ventana: se obtienen los resultados

En R los objetos son las variables que utilizamos.

El uso de comentarios se utiliza #. El texto ya no es procesado por R.

R distingue entre minúsculas y mayúsculas

<- = se denomina operador de asignación

Para ejecutar una instrucción se utiliza el botón RUN

Código ingresado en la primera ventana

Mean: Para obtener el promedio.

Median: Función para obtener la mediana.

Llama a la ayuda de la función, con su sintaxis y

La doble comilla se utiliza para indicar que se ingresa un texto.

Un paquete muy útil para graficas ggplot2

Cuando se instala un paquete, además instala todos los paquetes relacionados.

La instalación se utiliza la función “install.packages”

Hay interfaces que existen para R como R Comander

Instalación del Rcomander (interfaz)

Se utiliza la función “library”

Lectura de un archivo de datos separados por comas (Excel)

SI es positiva si una variable aumenta la otra también.

El ACP es uno de los métodos que utiliza el análisis exploratorio.

Se pasa a un conjunto menor de variables llamadas componentes principales que están

En el caso de componentes principales a diferencia del análisis factorial no interesa la estructura

Cuando se aplica esta técnica se presentan ciertas preguntas:

 ¿Cuánta información se pierde para ganar facilidad de interpretación?

Cuando se extraen los componentes se presentan ciertos criterios:

NUEVA VENTANA DE SCRIPT EN R

FILE/NEW FILE/R SCRIPT

 COPIAR PEGAR EN LA VENTANA EL CODIGO DEL ARCHIVO ACP.TXT

Se utiliza la función “read.spss”.

Al colocar el to.data.frame=T) se muestra los datos en columnas.

El uso de la T mayúscula R automáticamente lo entiende como True

Para mostrar los estadísticos descriptivos básicos (mediana, media, etc)

En el ejemplo indica de la columna 2 a la 10 porque la primera indica el país (y para la correlación

Correlaciones altas de 0.7 hacia arriba.

Correlaciones bajas de 0.4 hacia abajo.

En una matriz de correlación lo que se indica es la matriz de correlación es la correlación entre

Ho: |Rp|= I (la matriz de correlación de la población es igual a la matriz de identidad)

H1: |Rp|≠ I (la matriz de correlación de la población es igual a la matriz de identidad)

p_Value<0.05 => se rechaza la Ho

Como se rechaza la Ho entonces si se justifica la aplicación del Análisis de componentes

Se utiliza la función PCA.

ncp=9 : Indica los componentes

Correlaciones de las variables de las dimensiones

Aquí no interesa mucho como se denominaría la dimensión.

 Primera componente correlacionada en forma negativa con Agricultura y minería.

En R dimensiones o componentes son sinónimos.

Representación grafica de variables

scale_color_gradient2(low="white", mid="blue",high="red", midpoint=10.0)+

También permite reducir el número de variables o dimensiones.

El objetivo es similar al ACP, debe ser variables métricas.

Se intenta detectar si hay variables latentes

Variables manifiestas (indicadores).

METODOS PARA LA EXTRACCION DE FACTORES

 Método de los componentes principales

DETERMINACION DEL NUMERO DE FACTORES

Ho: |Rp|= I (la matriz de correlación de la población es igual a la matriz de identidad)

p_Value<0.05 => se rechaza la Ho