Вы находитесь на странице: 1из 14

1

Taller I en R.
Karen Gisselle Garavito Rodrı́guez (kgaravito@unal.edu.co)
Daniel Santiago Robayo Rico (drobayo@unal.edu.co)
Julián Andrés Castro Pardo (juacastropa@unal.edu.co)
Universidad Nacional de Colombia
Probabilidad y estadı́stica fundamental - Grupo 17

I. I NTRODUCCI ÓN
Se muestra a continuación en análisis y desarrollo de los ejercicios definidos para el primer taller los
cuales están realizados usando el paquete estadı́stico R.

II. D ESARROLLO
A. Ejercicios 3 y 4 de la carilla en lı́nea
3) Consideremos los siguientes datos:
22.03496 38.72421 26.0812 41.88097 43.79577
13.9684 30.05176 42.19433 30.82933 27.66897
44.34126 27.55963 35.03343 31.53587 15.88048
42.44117 20.6521 13.85184 23.3796 44.26361
42.09835 35.54114 33.79809 45.58901 34.30467
36.06532 30.58372 32.25275 22.08769 17.3533
44.5476 42.52363 35.47121 38.96293 13.27037
28.37494 37.72946 19.66288 23.05497 20.17009
17.20952 26.26683 26.23943 24.74362 17.53098
17.07641 20.21703 27.98053 21.31487 41.0414
13.97755 27.18853 39.07817 16.5129 31.1464
19.33369 16.70063 37.55775 42.28186 24.93084
34.61829 15.61104 25.24771 21.59521 39.60195
27.39905 39.44944 39.52694 38.92543 27.10959
37.59666 33.42194 36.12038 12.47082 28.2923
19.78656 25.10929 32.87366 24.17542 16.15414
20.56984 34.71629 26.37017 38.72057 15.87848
26.94498 45.27862 42.21539 41.99601 18.2845
16.80609 34.21789 23.8994 34.33975 23.12804
18.70575 38.52387 15.56952 28.00775 29.49848
32.44763 23.54301 28.73547 44.26261 28.54514
42.12537 42.92822 32.73914 26.13829 17.35267
43.62354 22.48996 14.47382 44.03774 36.46747
17.19267 30.75766 44.24986 31.96416 25.93233
Table I
2

Se pide:

1. Leer los datos utilizando el método que se prefiera.

1 s e t w d ( ”D : / Google D r i v e /UNAL/ ELECTRNICA / I I I / PyEF ” )


2 d a t o s <− r e a d . c s v ( ” E j e r c i c i o 3 . c s v ” , h e a d e r = FALSE , s e p = ” , ” ) ; #View ( d a t o s )
3 d a t o s <− u n l i s t ( d a t o s , u s e . names = FALSE )
4 d a t o s <− s o r t ( d a t o s )

scriptEj3.1Leer.R

2. Calcular la media, mediana, media recortada con una proporción del 0.05, los percentiles de orden
0.1 y 0.9.

1 media <− mean ( d a t o s )


2 m e d i a n a <− median ( d a t o s )
3 m e d i a R e c o r t a d a <− mean ( d a t o s , t r i m = . 0 5 )
4 p e r c e n t i l 1 <− q u a n t i l e ( d a t o s , p r o b s = . 1 )
5 p e r c e n t i l 9 <− q u a n t i l e ( d a t o s , p r o b s = . 9 )
6
7 c a t ( ” La media e s : ” , media )
8 c a t ( ” La media r e c o r t a d a en 0 . 0 5 e s : ” , m e d i a R e c o r t a d a )
9 c a t ( ” La m e d i a n a e s : ” , m e d i a n a )
10 c a t ( ” Los p e r c e n t i l e s de o r d e n o . 1 y 0 . 9 s o n ” , p e r c e n t i l 1 , ” y ” , p e r c e n t i l 9 , ” r e s p e c t i v a m e n t e ” )

scriptEj3.2Calculos.R

resultado en la consola:

1 > c a t ( ” La media e s : ” , media )


2 La media e s : 2 9 . 4 7 2 5 3
3
4 > c a t ( ” La media r e c o r t a d a en 0 . 0 5 e s : ” , m e d i a R e c o r t a d a )
5 La media r e c o r t a d a en 0 . 0 5 e s : 2 9 . 5 0 3 7 8
6
7 > c a t ( ” La m e d i a n a e s : ” , m e d i a n a )
8 La m e d i a n a e s : 2 8 . 4 6 0 0 4
9
10 > c a t ( ” Los p e r c e n t i l e s de o r d e n o . 1 y 0 . 9 s o n ” ,
11 percentil1 , ” y ” , percentil9 , ” respectivamente ” )
12 Los p e r c e n t i l e s de o r d e n 0 . 1 y 0 . 9 s o n 1 6 . 6 8 1 8 6 y 42.44942 respectivamente
13

3. Supongamos que se han seguido recogiendo datos. En concreto una segunda muestra con los siguientes
valores.
123.34 78.23 89.6 1.2
3

Incorporar estas nuevas observaciones a los datos originales y calcular las descriptivas numéricas
anteriores sobre los nuevos datos. Indicar cuáles de ellas varı́an y cuáles no justificando la respuesta.

Se incorporaron los nuevos datos:

1 n u e v o s D a t o s <− c ( d a t o s , c ( 1 2 3 . 3 4 , 7 8 . 2 3 , 8 9 . 6 , 1 . 2 ) )
2 n u e v o s D a t o s <− s o r t ( n u e v o s D a t o s )
3 c a t ( ” Nuevos d a t o s : ” , n u e v o s D a t o s )
4
5 mediaND <− mean ( n u e v o s D a t o s )
6 medianaND <− median ( n u e v o s D a t o s )
7 mediaRecortadaND <− mean ( n u e v o s D a t o s , t r i m = . 0 5 )
8 p e r c e n t i l N D 1 <− q u a n t i l e ( n u e v o s D a t o s , p r o b s = . 1 )
9 p e r c e n t i l N D 9 <− q u a n t i l e ( n u e v o s D a t o s , p r o b s = . 9 )
10
11 p r i n t ( ”ND: n u e v o s d a t o s ” )
12 c a t ( ” La media de ND: ” , mediaND )
13 c a t ( ” La media r e c o r t a d a en 0 . 0 5 de ND e s : ” , mediaRecortadaND )
14 c a t ( ” La m e d i a n a de ND e s : ” , medianaND )
15 c a t ( ” Los p e r c e n t i l e s de o r d e n 0 . 1 y 0 . 9 de ND s o n ” , p e r c e n t i l N D 1 , ” y ” , p e r c e n t i l N D 9 , ”
respectivamente ” )

scriptEj3.3ND.R

y se obtuvieron en consola los siguientes resultados:

1 > p r i n t ( ”ND: n u e v o s d a t o s ” )
2 [ 1 ] ND: n u e v o s d a t o s
3
4 > c a t ( ” La media de ND: ” , mediaND )
5 La media de ND: 3 0 . 8 7 9 6 3
6
7 > c a t ( ” La media r e c o r t a d a en 0 . 0 5 de ND e s : ” ,
8 mediaRecortadaND )
9 La media r e c o r t a d a en 0 . 0 5 de ND e s : 2 9 . 7 6 5 6 2
10
11 > c a t ( ” La m e d i a n a de ND e s : ” , medianaND )
12 La m e d i a n a de ND e s : 2 8 . 6 4 0 3
13
14 > c a t ( ” Los p e r c e n t i l e s de o r d e n 0 . 1 y 0 . 9 de ND s o n ” , p e r c e n t i l N D 1 , ” y ” , p e r c e n t i l N D 9 , ”
respectivamente ” )
15 Los p e r c e n t i l e s de o r d e n 0 . 1 y 0 . 9 de ND s o n 1 6 . 5 6 9 2 2 y 4 3 . 4 1 4 9 4 r e s p e c t i v a m e n t e
16

Teniendo en cuenta los datos, vemos que la media de los primeros datos con relación a la media de
con datos añadidos no se diferencia mucho, sin embargo cuando le recortamos los valores extremos
en 0.05, se acercan mucho más, lo que quiere decir que cuando se le añadieron los datos en la
segunda parte, habı́an datos que fluctuaban demasiado en valores extremos, que al ser recortados
hizo que la media se acercara más a la original.

La mediana no varió mucho, ya que es insensible a datos extremos.

Casi la misma cantidad de datos varia de la media en el percentil p = 0.1 y en el percentil p = 0.9.

4) Vamos a realizar distintas representaciones gráficas con los datos del ejercicio 3. Se pide lo siguiente:

1. Realizar distintos histogramas de los datos que aparecen en el ejercicio 3 modificando el número de
clases. ¿Hay un comportamiento consistente en la representación gráfica?
4

1 C l a s e 1 5 <−h i s t ( Datos1 , main = ’ H i s t o g r a m a F i n a l \ ncon 15 c l a s e s ’ , c o l = 1 : 1 0 , b r e a k s = 1 5 )


2 C l a s e 5 0 <−h i s t ( Datos1 , main = ’ H i s t o g r a m a F i n a l \ ncon 50 c l a s e s ’ , c o l = 1 : 3 0 , b r e a k s = 5 0 )
3 C l a s e 1 0 0 <−h i s t ( Datos1 , main = ’ H i s t o g r a m a F i n a l \ ncon 100 c l a s e s ’ , c o l = 1 : 4 5 , b r e a k s = 1 0 0 )

Codigo 4 1.R

Figure 1.

Figure 2.
5

Figure 3.

El comportamiento consistente es que independientemente de las clases se muestra un comportamiento


positivamente àsimetrico.

2. Representar gráficamente un estimador kernel de la densidad. Observar el valor que se ha utilizado


para el ancho de banda.

1 DensidadK<−d e n s i t y ( D a t o s 1 )
2 p l o t ( DensidadK , main = ’ E s t i m a d o r K e r n e l de l a D e n s i d a d ’ )
3 p o l y g o n ( DensidadK , c o l = ’ r e d ’ )

Codigo 4 2.R
6

Figure 4.

El valor del ancho de la banda ha sido determinado por defecto, éste es: 3.298.

3. Modificar el valor del ancho de banda observado en el apartado 2 doblando su valor y volver a
representar el estimador kernel de la densidad.

1 D e n s i d a d D o b l a d a <−d e n s i t y ( Datos1 , a d j u s t = 2 )
2 p l o t ( d e n s i t y ( Datos1 , a d j u s t = 2 ) , main = ’ E s t i m a d o r K e r n e l de l a D e n s i d a d \ nDoblado ’ )
3 p o l y g o n ( D e n s i d a d D o b l a d a , c o l = ’ #93F9BE ’ )

Codigo 4 3.R
7

Figure 5.

4. Modificar el valor del ancho de banda observado en el apartado 2 considerando la mitad de su valor
y volver a representar el estimador kernel de la densidad.

1 D e n s i d a d M i t a d <−d e n s i t y ( Datos1 , a d j u s t = 0 . 5 )
2 p l o t ( d e n s i t y ( Datos1 , a d j u s t = 0 . 5 ) , main = ’ E s t i m a d o r K e r n e l de l a D e n s i d a d \ na l a M i t a d ’ )
3 p o l y g o n ( D e n s i d a d M i t a d , c o l = ’ #DFA295 ’ )

Codigo 4 4.R
8

Figure 6.

5. Comparar los tres estimadores kernel que hemos obtenido. ¿Qué ocurre cuando incrementamos el
ancho de banda? ¿Y cuando lo disminuimos?

Podemos evidenciar que el ancho de banda que más nos sirve es el inicial (3.298), cuando lo doblamos
se sobreajusta, haciendo que se evidencie poca precisión sobre los datos, y cuando lo dividimos en
la mitad, se subajusta, haciendo que la dispersión de los datos sea demasiado grande, para hacer una
lectura correcta de la estimación de la densidad.

B. Ejercicio con conjunto de datos Wage librerı́a ISLR


El conjunto de datos Wage de la librerı́a ISLR brinda información de un grupo de trabajadores. Los
datos presentan la información del salario y otras variables de interés de una muestra de tamaño n = 3000.

a) Extraiga las mediciones de la variable age del conjunto de datos e identifique el tipo de variable y su
escala de medición.

1 l i b r a r y ( ISLR )
2 Edad=Wage$ a g e
3 names ( Edad )
4 summary ( Edad )

Codigo 2 a.R

Figure 7.
9

Podemos evidenciar que (age) es una variable cuantitativa de tipo discreta, ya que podemos hacer
operaciones númericas con éstas para su debido análisis, sin embargo, no se admiten valores intermedios
entre los mismos datos. Su escala de medición se evidencia en t=años.

b) Realice el diagrama de barras para la variable Wage y analice gráficamente la distribución de frecuencias
relativas de los datos. Tenga en cuenta caracterı́sticas tales como tendencia, dispersión y forma.
¿Requiere categorizar (construir intervalos) para esta variable?, en dado caso, utilice la regla de Sturges
y usando el método de inclusión a izquierda.

1 S a l a r i o <−Wage$ wage
2 library ( fdth )
3 barplot ( Salario )
4 d i s t <− f d t ( S a l a r i o , b r e a k s =” S t u r g e s ” )
5 dist
6 # Donde
7 #f= frecuencia absoluta
8 # rf= frecuencia relativa
9 # r f (%) f r e c u e n c i a r e l a t i v a p o r c e n t u a l
10 # c f = f r e c u e n c i a acumulada
11 # c f (%)= f r e c u e n c i a a c u m u l a d a p o r c e n t u a l
12 nclass . Sturges ( Salario )
13 summary ( S a l a r i o )

Codigo 2 b.R

Figure 8.
10

Figure 9.

Se evidencia que la distribución de las frecuencias relativas están distribuidas de forma que hay
una mayor concentración en general en los limites de clase contenidos entre[43.0878,182.307] y
especı́ficamente en el limite de clase con el intervalo [89.4942,112.697]. De esta forma podemos
evidenciar que la variable salario tiene una forma asimétrica positiva.

Considere ahora la variable wage, que es propiamente la que proporciona el valor del salario semanal
de los 3000 trabajadores de la muestra.

c) Trace una gráfica adecuada que le permita analizar preliminarmente la tendencia, dispersión y forma
de los datos.

1 # Histograma
2
3 h i s t ( S a l a r i o , main = ’ H i s t o g r a m a \ n S a l a r i o ’ , c o l = 1 : 1 0 , b r e a k s = 6 0 , y l a b = ’ F r e c u e n c i a ’ )
4
5 # Densidad
6
7 density ( Salario )
8 D e n s i d a d<−p l o t ( d e n s i t y ( S a l a r i o , a d j u s t = 0 . 9 ) , main = ’ D e n s i d a d \ n S a l a r i o ’ , x l a b = ’ S a l a r i o ’ , y l a b = ’
Densidad ’ )
9 polygon ( d e n s i t y ( S a l a r i o , a d j u s t = 0 . 9 ) , col = ’ yellow ’ )

Codigo 2 c.R
11

Figure 10.

Figure 11.

Con la revisión de la graficación de los datos en forma de historgrama y densidad, podemos evidenciar
una forma positivamente ası́metrica, una concentración fuerte de los datos más o menos en un rango
de salario de entre 50 y 150, apróximadamente lo que ya habı́amos deducido con el Diagrama de
Barras, sin embargo, estas graficas nos permiten gráficamente ver con mayor claridad, si necesidad de
12

hacer una tabla de frecuencias.

d) Encuentre mediante comandos en R algunas medidas descriptivas de centro, localización, dispersión y


forma (cuartiles inferior y superior, percentiles 10, 25, 50, 75 y 90 de la distribución, media y mediana.
¿Qué puede comentar sobre los salarios, teniendo en cuenta el percentil 90?

1 Resumen<−summary ( S a l a r i o )
2
3 P e r c e n t i l e s <−q u a n t i l e ( S a l a r i o , c ( 0 . 1 , 0 . 2 5 , 0 . 5 , 0 . 7 5 , 0 . 9 ) )
4
5 M<−m a t r i x ( c ( Resumen , P e r c e n t i l e s ) , 1 1 , 1 )
6 c o l n a m e s (M) <− c ( ’ V a l o r e s ’ )
7 row . names (M)<−c ( ’ Min ’ , ’Q1 ’ , ’ Mediana ’ , ’ Media ’ , ’Q3 ’ , ’ M x ’ , ’ P e r c 10% ’ , ’ P e r c 2 5%’ , ’ P e r c 5 0%’ , ’ P e r c 7 5%’ , ’ P e r c 9 0
%’ )
8 M
Codigo 2 d.R

Figure 12.

Hay un 90 por ciento de trabajadores que ganan menos de 154.70360 a la semana, y hay un 10 por
ciento que sobrepasan dicho salario. El promedio de sueldo es de aproximadamente 111.7 a la semana,
la persona que menos gana, gana aprox. 20.1 y la que más gana, gana, 318.3, aprox. La mitad de los
trabajadores ganan menos de 105 x semana aprox.

e) Construya una gráfica de caja. ¿Que comentarios le merecen los datos atı́picos de esta variable? En
comparación con el primer literal de este punto, comente si sus observaciones preliminares fueron
adecuadas.

1 b o x p l o t (M, h o r i z o n t a l =TRUE , b o r d e r =c ( ’ b l a c k ’ ) , main= ’ Diagrama de C a j a S a l a r i o s ’ , x l a b = ’ S a l a r i o s ’ )

Codigo 2 e.R
13

Figure 13.

Este diagrama de caja nos permite observar, que el valor máximo está muy alejado tanto de la media
como de la mediana, está más cercana al promedio la persona que gana menos que la persona que
más gana, económicamente se podrı́a decir, que tal vez esta relación pertenece a una firma/empresa, en
donde, la distribución de la mano de obra está más condensada en la masa obrera, y los administradores,
con salarios más altos, son más bien pocos, esto es muy común en las redes de mano de obra.
Comparando este literal con respecto al b, podemos evidenciar la diferencia en la eficiencia respecto
al análisis de los datos. El diagrama de caja habla por sı́ mismo, en el Diagrama de Barras, por ser
tanta la cantidad de datos, era dificultoso algún análisis preciso.
14

R EFERENCES
[1] T RAZADO DE B ODE, [Online] Disponible en:
http://isa.uniovi.es/ idiaz/ADSTel/Tema.TrazadoBode.pdf [Consultado el 6 de septiembre de 2019].

Вам также может понравиться