Вы находитесь на странице: 1из 13

Facultad de Ciencias

de la Ingeniería

“INFORME ESTADÍSTICO DEL PORCENTAJE DE


EMPLEO DE PAÍSES EUROPEOS SEGÚN SECTOR
ECONÓMICO”

Profesor: Carlos González R.

Alumnos: Rodolfo Aravena

Gabriela Beltrán

Marcelo Salas

Fecha: 17 de enero de 2019


1. Análisis Gráficos y de Puntos Atípicos
Como se establece en el capítulo 4 de la bibliografía “Análisis de Datos Multivariante” del autor Daniel
Peña, el primer paso para un análisis multivariante es representar gráficamente las variables individualmente,
mediante un histograma o un diagrama de caja, con el objetivo de detectar asimetrías, heterogeneidad, datos
atípicos, etc.

 Histogramas de variables individualmente:

1.- Agricultura 2.- Minería

3.- Industria 4.- Energía

5.- Construcción 6.- Servicios Industriales

7.- Finanzas 8.- Servicios

9.- Transporte y Comunicaciones


Analizando los histogramas de cada variable se puede observar que, la variable “Agricultura” e “Industria”
presentan valores atípicos que son los que están alejados de los otros valores. Los valores atípicos los encerramos
en círculos naranjos para una mejor visualización. De los datos y de los histogramas podemos rescatar lo siguiente:

1.- Agricultura: Los datos de esta variable tienen una media de 19,13%, una moda de 7.7% y una mediana de
14.15%. Analizando el histograma se observa que los datos presentan una distribución con sesgo a la derecha
(sesgo positivo) y se verifica al cumplirse que media > mediana > moda.

2.- Minería: Los datos de esta variable tienen una media de 1.25%, una moda de 0,1% y una mediana de 0,95%.
Observando el histograma de puede concluir que los datos presentan una distribución asimétrica, con sesgo a la
derecha.

3.- Industria: Los datos de esta variable tienen una media de 27%, una moda de 27,6% y una mediana de 27,55%.
Se puede observar que los datos tienen una distribución relativamente simétrica, pero con valores atípicos.

4.- Energía: Los datos de esta variable tienen una media de 0,9%, una moda de 0,6% y una mediana de 0,85%.
Analizando el histograma se puede observar que los datos presentan una distribución relativamente normal.

5.- Construcción: Los datos de esta variable tienen una media de 8,16%, una moda de 8,2% y una mediana de
8,35%. Observando el histograma se puede identificar que los datos tienen una distribución relativamente normal
y que tiene cola derecha y cola izquierda.

6.- Servicios industriales: Los datos de esta variable tienen una media de 12,95%, una moda de 16,8% y una
mediana de 14,4%. Observando el histograma de puede apreciar que presenta una distribución bimodal.

7.- Finanzas: Los datos de esta variable tienen una media de 4%, una moda de 0,9% y una mediana de 4,65%.
Analizando el histograma se observa que los datos tienen una distribución de dos puntas o también llamada
bimodal.

8.- Servicios: Los datos de esta variable tienen una media de 20,02%, una mediana de 19,65% y no existe moda.
Los datos presentan una distribución relativamente normal.

9.- Transporte y comunicación: Los datos de esta variable tienen una media de 6,54%, una moda de 5,7% y una
mediana de 6,7%. Al analizar el histograma se puede observar que los datos se distribuyen de forma simétrica.

*Media, moda y mediana en %, ya que los datos son porcentajes de empleo de países europeos según sector
económico.

 Diagrama de caja:

Agricultura Minería Industria


Energía Construcción Servicios Industriales

Finanzas Servicios Transp. Y Comunicación

Del análisis de los diagramas de caja y bigote se identifica que:

Las variables “Agricultura”, “Industria”, “Construcción” y “transporte y comunicación”, presentan valores atípicos
que son los valores alejados de los mínimos o máximos del gráfico caja y bigote, los cuales los encerramos en
círculos naranjos para una mejor visualización.

Las variables “Agricultura”, “Minería”, “Energía” y “Finanzas” presentan una distribución asimétrica de sesgo a la
derecha, mientras que las variables “Servicios industriales” “Transporte y comunicaciones” presentan una
distribución asimétrica de sesgo a la izquierda y las variables “Industria”, “Construcción”, “servicios” presentan
una distribución relativamente normal ya que la distancia entre la mediana y los máximos y mínimos es
relativamente igual.

En segundo lugar, se debe construir una matriz de dispersión de los datos para establecer la relación entre las
variables

De la matriz de dispersión se puede observar que los valores atípicos mencionados en los análisis de los
histogramas y de los diagramas de caja y bigote se reflejan en dicha matriz y se pueden distinguir fácilmente ya
que son los valores alejados a los que están agrupados.
2. Análisis Factorial

Resumen Análisis Factorial

El análisis factorial tiene por objeto explicar un conjunto de variables observadas por un pequeño número de
variables latentes, o no observadas, que llamaremos factores.

El análisis factorial está relacionado con los componentes principales, pero existen ciertas diferencias. En primer
lugar, los componentes principales se construyen para explicar las varianzas, mientras que los factores se
construyen para explicar las covarianzas o correlaciones entre las variables. En segundo lugar, componentes
principales es una herramienta descriptiva, mientras que el análisis factorial presupone un modelo estadístico
formal de generación de la muestra dada.

El Modelo

Hipótesis Básica

Supondremos que observamos un vector de variables x, de dimensiones (p × 1), en elementos de una población.
El modelo de análisis factorial establece que este vector de datos observados se genera mediante la relación:

donde:

1. f es un vector (m X 1) de variables latentes o factores no observados.


2. Λ es una matriz (p × m) de constantes desconocidas (m<p).
3. u es un vector (p × 1) de perturbaciones no observadas.

Con estas tres hipótesis deducimos que:

(a) µ es la media de las variables x, ya que tanto los factores como las perturbaciones tienen media cero;

(b) x tiene distribución normal, al ser suma de variables normales, y llamando V a su matriz de covarianzas

x ∼Np(µ, V).

Propiedades

Propiedad fundamental:

Establece que la matriz de covarianzas de los datos observados admite una descomposición como suma de dos
matrices:

1. La primera, ΛΛ´ , es una matriz simétrica de rango m < p. Esta matriz contiene la parte común al conjunto
de las variables y depende de las covarianzas entre las variables y los factores.
2. La segunda, ψ, es diagonal, y contiene la parte específica de cada variable, que es independiente del resto.
Esta descomposición implica que las varianzas de las variables observadas pueden descomponerse como:

donde el primer término es la suma de los efectos de los factores y el segundo el efecto de la perturbación.
Llamando a la suma de los efectos de los factores que llamaremos comunalidad, tenemos que:

Esta igualdad puede interpretarse como una descomposición de la varianza en:

Unicidad del modelo:

En el modelo factorial ni la matriz de carga, Λ, ni los factores, f, son observables. Esto plantea un problema de
indeterminación: dos representaciones (Λ,f) y (Λ∗,f ∗ ) serán equivalentes si:

Esta situación conduce a dos tipos de indeterminación:

1. Un conjunto de datos puede explicarse con la misma precisión con factores incorrelados o correlados.
2. Los factores no quedan determinados de manera única.

Normalización del modelo factorial:

Como el modelo factorial está indeterminado ante rotaciones la matriz Λ no está identificada. Esto implica que,
aunque observemos toda la población, y µ, y V sean conocidos, no podemos determinar Λ de manera única. La
solución para poder estimar esta matriz es imponer restricciones sobre sus términos. Los dos métodos principales
de estimación que vamos a estudiar utilizan alguna de las dos siguientes normalizaciones:

Criterio 1:

Exigir:

Con esta normalización los vectores que definen el efecto de cada factor sobre las p variables observadas son
ortogonales.

Criterio 2:

Exigir:
En esta normalización los efectos de los factores sobre las variables, ponderados por las varianzas de las
perturbaciones de cada ecuación, se hacen incorrelados.

Número Máximo de Factores:

Para que el sistema esté determinado debe haber un número de ecuaciones igual o mayor que el de incógnitas.
En efecto, si existen menos ecuaciones que incógnitas no es posible encontrar una solución única y el modelo no
está identificado. Si el número de ecuaciones es exactamente igual al de incógnitas existirá una solución única. Si
existen más ecuaciones que incógnitas, podremos resolver el sistema en el sentido de los mínimos cuadrados y
encontrar unos valores de los parámetros que minimicen los errores de estimación. Por lo tanto:

que supone:

es decir:

El lector puede comprobar que esta ecuación implica que, cuando p no es muy grande (menor de 10)
aproximadamente el número máximo de factores debe ser menor que la mitad del número de variables menos
uno. Por ejemplo, el número máximo de factores con 7 variables es 3. Esta es la regla que se obtiene si escribimos
la desigualdad anterior despreciando el término de las restricciones sobre los elementos de Λ.

El Método

El método del factor principal es un método para estimar la matriz de carga basado en componentes principales.
Evita tener que resolver las ecuaciones de máxima verosimilitud, que son más complejas.

En la práctica la estimación se lleva a cabo de forma iterativa como sigue:

Estimación de las comunalidades:

Estimar los términos ψ2 i equivale a definir valores para los términos diagonales, h2 i, de ΛΛ0, ya que h2 i = s2 i −
ψb2 i . Existen las siguientes alternativas:

1. tomar ψbi = 0. Esto equivale a extraer los componentes principales de S. Supone tomar b h2 i = s2 i (en el caso
de correlaciones b h2 i = 1), que es claramente su valor máximo, por lo que podemos comenzar con un sesgo
importante.
2. tomar ψb2 j = 1/s∗ jj, donde s∗ jj es el elemento diagonal j-ésimo de la matriz de precisión S−1. Según el
apéndice 3.2 esto equivale a tomar h2 j como:

Determinación de Factores

Contraste de Verosimilitud

Supongamos que se ha estimado un modelo con m factores. El contraste de que la descomposición es adecuada
puede plantearse como un contraste de razón de verosimilitudes:

Este contraste recuerda al de esfericidad parcial que se encuentra en el capítulo 10 de la bibliografía sugerida,
aunque existen diferencias porque no exigimos que los componentes específicos tienen igual varianza. El
contraste se deduce con los mismos principios que se dan a conocer en el capítulo 10 de la bibliografía sugerida
para desarrollar este informe. Sea V0 el valor de la matriz de varianzas y covarianzas de los datos estimados bajo
H0.

Criterios de Selección:

Existen dos criterios de selección:

Criterio 1:

estimaremos el modelo factorial para distinto número de factores, calcularemos la función soporte en el máximo
para cada modelo y, aplicando el criterio de Akaike, elegiremos aquel modelo donde:

Este mismo criterio de selección puede escribirse como minimizar las diferencias AIC(m) − AIC(H1), donde en todos
los modelos restamos la misma cantidad, AIC(H1), que es el valor del AIC para el modelo que supone que no existe
estructura factorial y que estima la matriz de covarianzas sin restricciones. Entonces la función a minimizar es:

Criterio 2:

Con este criterio en lugar de penalizar el número de parámetros con 2 lo hacemos con logn. Este criterio
aplicado a la selección del modelo factorial mediante las diferencias de soporte es:
Análisis Factorial

Nuestra función:

factanal(x = ~Agricultura + Construcción + Energía + Finanzas + Industria + Minería + Serv..Industriales +


Servicios + Transp..Y.Comunicación, factors = 5, data = pais, scores = "none", rotation = "varimax")

Resultados y datos arrojados por R - Project:

El Factor 1, explica en un 22,9% la variabilidad de todas las variables de la base de datos. Mientras que, en
conjunto, los 5 factores explican en un 83,4% la variabilidad de todas las variables de la base de datos. Por lo tanto,
con 5 factores no se explica en su totalidad la variabilidad de las variables, sin embargo, alcanza un valor aceptable
y se acepta que la cantidad de factores es suficiente para el ejercicio. Es decir, el factor 1 explica el 22,9% de los
empleos de los países relacionados, y entre los 5 factores explican un 83,4% el origen de los empleos, lo cual es
suficiente para valorar el ejercicio como un estudio válido de un análisis factorial de 5 factores.

El Factor 1 se explica que un 96,6% de los empleos se dan por los Servicios; en el Factor 2, un 79,5% de los empleos
se dan por los Servicios Industriales; en el Factor 3, un 90,0% de los empleos se da por la Industria; el Factor 4, un
84,5% de los empleos está relacionado con el sector de la Energía; y el Factor 5, en un 95,1% de los empleos está
en la Construcción.
3. Conclusión

En el momento de realizar análisis estadísticos, es importante utilizar distintas formas de validación de métodos,
teniendo en cuenta distintas variables y opciones para realizar el estudio. Realizar un estudio en base a
Histogramas, permite encontrar asimetrías más generales, encontrando además valores atípicos, esto nos permite
considerarlo en futuras evaluaciones del estudio, y evitar contradicciones en los resultados. Con el mismo fin,
podemos utilizar un diagrama de cajas para encontrar las mismas características en los datos.

La matriz de dispersión muestra algunos posibles valores atípicos, por lo que es gran importancia utilizar otros
métodos gráficos de datos, como histogramas o diagramas de caja y bigote ya que los valores atípicos que se
observan claramente en una gráfica, pueden no ser tan obvios en otras gráficas, como pudimos observar con
nuestros datos en el análisis de los histogramas solo en dos variables se pudieron apreciar los valores atípicos,
mientas que en el análisis de los diagramas de caja y bigote se lograron apreciar en 4 variables los valores atípicos.

Es de gran importancia poner atención en la presencia de valores atípicos ya que la presencia de estos valores
tiene distintas causas, como por ejemplo errores en la entrada de datos, problemas del proceso, factores faltantes
o probabilidades aleatorias, siendo estas las causas más comunes. Como estos datos atípicos pueden afectar el
estudio existen varias acciones posibles para corregir esto, como por ejemplo corregir los errores de entradas de
datos, investigar el proceso para determinar la causa del valor atípico, determinar si no se consideró un factor que
afecta el proceso o investigar el proceso y el valor atípico para determinar si este se produjo en virtud de las
probabilidades, y realizar el analisis con y sin los valores atípicos para ver el impacto en los resultados.

Para complementar el estudio de forma más específica, se puede utilizar un análisis factorial, lo que nos permite
encontrar datos estadísticos más certeros, y poder utilizar la estadística con aún más precisión en los estudios que
se necesiten realizar, como en el último caso.
Anexos

 Anexo 1: Matriz de dispersión de datos.


 Anexo 2: Sentencia de r Project para obtener matriz de dispersión, histogramas y diagramas de caja.

Dataset <- readXL("C:/Users/Gabri/Desktop/EUROSEC.xlsx", rownames=FALSE, header=TRUE, na="",


sheet="Hoja1",

stringsAsFactors=TRUE)

scatterplotMatrix(~Agricultura+Construcción+Energía+Finanzas+Industria+Minería+Serv..Industriales+Se
rvicios+Transp..Y.Comunicación,

regLine=FALSE, smooth=FALSE, diagonal=list(method="density"), data=Dataset)

with(Dataset, Hist(Agricultura, scale="frequency", breaks="Sturges", col="darkgray"))

with(Dataset, Hist(Construcción, scale="frequency", breaks="Sturges", col="darkgray"))

with(Dataset, Hist(Energía, scale="frequency", breaks="Sturges", col="darkgray"))

with(Dataset, Hist(Finanzas, scale="frequency", breaks="Sturges", col="darkgray"))

with(Dataset, Hist(Industria, scale="frequency", breaks="Sturges", col="darkgray"))

with(Dataset, Hist(Minería, scale="frequency", breaks="Sturges", col="darkgray"))

with(Dataset, Hist(Serv..Industriales, scale="frequency", breaks="Sturges", col="darkgray"))

with(Dataset, Hist(Servicios, scale="frequency", breaks="Sturges", col="darkgray"))

with(Dataset, Hist(Transp..Y.Comunicación, scale="frequency", breaks="Sturges",

col="darkgray"))

Boxplot( ~ Agricultura, data=Dataset, id=list(method="y"))

Boxplot( ~ Minería, data=Dataset, id=list(method="y"))

Boxplot( ~ Industria, data=Dataset, id=list(method="y"))

Boxplot( ~ Energía, data=Dataset, id=list(method="y"))

Boxplot( ~ Construcción, data=Dataset, id=list(method="y"))

Boxplot( ~ Serv..Industriales, data=Dataset, id=list(method="y"))

Boxplot( ~ Finanzas, data=Dataset, id=list(method="y"))

Boxplot( ~ Servicios, data=Dataset, id=list(method="y"))

Boxplot( ~ Transp..Y.Comunicación, data=Dataset, id=list(method="y"))


 Anexo 3: Análisis factorial r Project

> local({
+ .FA <-
+
factanal(~Agricultura+Construcción+Energía+Finanzas+Industria+Minería+Serv..Industriales+Servicios+Tr
ansp..Y.Comunicación,
+ factors=5, rotation="varimax", scores="none", data=pais)
+ print(.FA)
+ })
Call:
factanal(x = ~Agricultura + Construcción + Energía + Finanzas + Industria + Minería + Serv..Industriales
+ Servicios + Transp..Y.Comunicación, factors = 5, data = pais, scores = "none", rotation = "varimax")

Uniquenesses:
Agricultura Construcción Energía
0.005 0.005 0.217
Finanzas Industria Minería
0.455 0.005 0.352
Serv..Industriales Servicios Transp..Y.Comunicación
0.137 0.005 0.313

Loadings:
Factor1 Factor2 Factor3 Factor4 Factor5
Agricultura -0.664 -0.388 -0.532 -0.186 -0.293
Construcción 0.143 0.247 0.951
Energía 0.158 0.133 0.159 0.845
Finanzas 0.730
Industria 0.146 0.900 0.274 0.279
Minería -0.156 -0.495 0.313 0.529
Serv..Industriales 0.400 0.795 0.189 0.188
Servicios 0.966 0.228
Transp..Y.Comunicación 0.659 -0.171 0.346 0.317

Factor1 Factor2 Factor3 Factor4 Factor5


SS loadings 2.060 1.679 1.330 1.232 1.206
Proportion Var 0.229 0.187 0.148 0.137 0.134
Cumulative Var 0.229 0.415 0.563 0.700 0.834

Test of the hypothesis that 5 factors are sufficient.


The chi square statistic is 97.79 on 1 degree of freedom.
The p-value is 4.66e-23

Вам также может понравиться