Lab 1 en R

1
Taller I en R.
Karen Gisselle Garavito Rodrı́guez (kgaravito@unal.edu.co)
Daniel Santiago Robayo Rico (drobayo@unal.edu.co)
Julián Andrés Castro Pardo (juacastropa@unal.edu.co)
Universidad Nacional de Colombia
Probabilidad y estadı́stica fundamental - Grupo 17
I. I NTRODUCCI ÓN
Se muestra a continuación en análisis y desarrollo de los ejercicios definidos para el primer taller los
cuales están realizados usando el paquete estadı́stico R.
II. D ESARROLLO
A. Ejercicios 3 y 4 de la carilla en lı́nea
3) Consideremos los siguientes datos:
22.03496 38.72421 26.0812 41.88097 43.79577
13.9684 30.05176 42.19433 30.82933 27.66897
44.34126 27.55963 35.03343 31.53587 15.88048
42.44117 20.6521 13.85184 23.3796 44.26361
42.09835 35.54114 33.79809 45.58901 34.30467
36.06532 30.58372 32.25275 22.08769 17.3533
44.5476 42.52363 35.47121 38.96293 13.27037
28.37494 37.72946 19.66288 23.05497 20.17009
17.20952 26.26683 26.23943 24.74362 17.53098
17.07641 20.21703 27.98053 21.31487 41.0414
13.97755 27.18853 39.07817 16.5129 31.1464
19.33369 16.70063 37.55775 42.28186 24.93084
34.61829 15.61104 25.24771 21.59521 39.60195
27.39905 39.44944 39.52694 38.92543 27.10959
37.59666 33.42194 36.12038 12.47082 28.2923
19.78656 25.10929 32.87366 24.17542 16.15414
20.56984 34.71629 26.37017 38.72057 15.87848
26.94498 45.27862 42.21539 41.99601 18.2845
16.80609 34.21789 23.8994 34.33975 23.12804
18.70575 38.52387 15.56952 28.00775 29.49848
32.44763 23.54301 28.73547 44.26261 28.54514
42.12537 42.92822 32.73914 26.13829 17.35267
43.62354 22.48996 14.47382 44.03774 36.46747
17.19267 30.75766 44.24986 31.96416 25.93233
Table I
2
Se pide:
1. Leer los datos utilizando el método que se prefiera.
1 s e t w d ( ”D : / Google D r i v e /UNAL/ ELECTRNICA / I I I / PyEF ” )

2 d a t o s <− r e a d . c s v ( ” E j e r c i c i o 3 . c s v ” , h e a d e r = FALSE , s e p = ” , ” ) ; #View ( d a t o s )
3 d a t o s <− u n l i s t ( d a t o s , u s e . names = FALSE )
4 d a t o s <− s o r t ( d a t o s )
scriptEj3.1Leer.R
2. Calcular la media, mediana, media recortada con una proporción del 0.05, los percentiles de orden
0.1 y 0.9.
1 media <− mean ( d a t o s )

2 m e d i a n a <− median ( d a t o s )
3 m e d i a R e c o r t a d a <− mean ( d a t o s , t r i m = . 0 5 )
4 p e r c e n t i l 1 <− q u a n t i l e ( d a t o s , p r o b s = . 1 )
5 p e r c e n t i l 9 <− q u a n t i l e ( d a t o s , p r o b s = . 9 )
6
7 c a t ( ” La media e s : ” , media )
8 c a t ( ” La media r e c o r t a d a en 0 . 0 5 e s : ” , m e d i a R e c o r t a d a )
9 c a t ( ” La m e d i a n a e s : ” , m e d i a n a )
10 c a t ( ” Los p e r c e n t i l e s de o r d e n o . 1 y 0 . 9 s o n ” , p e r c e n t i l 1 , ” y ” , p e r c e n t i l 9 , ” r e s p e c t i v a m e n t e ” )
scriptEj3.2Calculos.R
resultado en la consola:
1 > c a t ( ” La media e s : ” , media )

2 La media e s : 2 9 . 4 7 2 5 3
3
4 > c a t ( ” La media r e c o r t a d a en 0 . 0 5 e s : ” , m e d i a R e c o r t a d a )
5 La media r e c o r t a d a en 0 . 0 5 e s : 2 9 . 5 0 3 7 8
6
7 > c a t ( ” La m e d i a n a e s : ” , m e d i a n a )
8 La m e d i a n a e s : 2 8 . 4 6 0 0 4
9
10 > c a t ( ” Los p e r c e n t i l e s de o r d e n o . 1 y 0 . 9 s o n ” ,
11 percentil1 , ” y ” , percentil9 , ” respectivamente ” )
12 Los p e r c e n t i l e s de o r d e n 0 . 1 y 0 . 9 s o n 1 6 . 6 8 1 8 6 y 42.44942 respectivamente
13
3. Supongamos que se han seguido recogiendo datos. En concreto una segunda muestra con los siguientes
valores.
123.34 78.23 89.6 1.2
3
Incorporar estas nuevas observaciones a los datos originales y calcular las descriptivas numéricas
anteriores sobre los nuevos datos. Indicar cuáles de ellas varı́an y cuáles no justificando la respuesta.
Se incorporaron los nuevos datos:
1 n u e v o s D a t o s <− c ( d a t o s , c ( 1 2 3 . 3 4 , 7 8 . 2 3 , 8 9 . 6 , 1 . 2 ) )
2 n u e v o s D a t o s <− s o r t ( n u e v o s D a t o s )
3 c a t ( ” Nuevos d a t o s : ” , n u e v o s D a t o s )
4
5 mediaND <− mean ( n u e v o s D a t o s )
6 medianaND <− median ( n u e v o s D a t o s )
7 mediaRecortadaND <− mean ( n u e v o s D a t o s , t r i m = . 0 5 )
8 p e r c e n t i l N D 1 <− q u a n t i l e ( n u e v o s D a t o s , p r o b s = . 1 )
9 p e r c e n t i l N D 9 <− q u a n t i l e ( n u e v o s D a t o s , p r o b s = . 9 )
10
11 p r i n t ( ”ND: n u e v o s d a t o s ” )
12 c a t ( ” La media de ND: ” , mediaND )
13 c a t ( ” La media r e c o r t a d a en 0 . 0 5 de ND e s : ” , mediaRecortadaND )
14 c a t ( ” La m e d i a n a de ND e s : ” , medianaND )
15 c a t ( ” Los p e r c e n t i l e s de o r d e n 0 . 1 y 0 . 9 de ND s o n ” , p e r c e n t i l N D 1 , ” y ” , p e r c e n t i l N D 9 , ”
respectivamente ” )
scriptEj3.3ND.R
y se obtuvieron en consola los siguientes resultados:
1 > p r i n t ( ”ND: n u e v o s d a t o s ” )
2 [ 1 ] ND: n u e v o s d a t o s
3
4 > c a t ( ” La media de ND: ” , mediaND )
5 La media de ND: 3 0 . 8 7 9 6 3
6
7 > c a t ( ” La media r e c o r t a d a en 0 . 0 5 de ND e s : ” ,
8 mediaRecortadaND )
9 La media r e c o r t a d a en 0 . 0 5 de ND e s : 2 9 . 7 6 5 6 2
10
11 > c a t ( ” La m e d i a n a de ND e s : ” , medianaND )
12 La m e d i a n a de ND e s : 2 8 . 6 4 0 3
13
14 > c a t ( ” Los p e r c e n t i l e s de o r d e n 0 . 1 y 0 . 9 de ND s o n ” , p e r c e n t i l N D 1 , ” y ” , p e r c e n t i l N D 9 , ”
respectivamente ” )
15 Los p e r c e n t i l e s de o r d e n 0 . 1 y 0 . 9 de ND s o n 1 6 . 5 6 9 2 2 y 4 3 . 4 1 4 9 4 r e s p e c t i v a m e n t e
16
Teniendo en cuenta los datos, vemos que la media de los primeros datos con relación a la media de
con datos añadidos no se diferencia mucho, sin embargo cuando le recortamos los valores extremos
en 0.05, se acercan mucho más, lo que quiere decir que cuando se le añadieron los datos en la
segunda parte, habı́an datos que fluctuaban demasiado en valores extremos, que al ser recortados
hizo que la media se acercara más a la original.
La mediana no varió mucho, ya que es insensible a datos extremos.
Casi la misma cantidad de datos varia de la media en el percentil p = 0.1 y en el percentil p = 0.9.
4) Vamos a realizar distintas representaciones gráficas con los datos del ejercicio 3. Se pide lo siguiente:
1. Realizar distintos histogramas de los datos que aparecen en el ejercicio 3 modificando el número de
clases. ¿Hay un comportamiento consistente en la representación gráfica?
4
1 C l a s e 1 5 <−h i s t ( Datos1 , main = ’ H i s t o g r a m a F i n a l \ ncon 15 c l a s e s ’ , c o l = 1 : 1 0 , b r e a k s = 1 5 )

2 C l a s e 5 0 <−h i s t ( Datos1 , main = ’ H i s t o g r a m a F i n a l \ ncon 50 c l a s e s ’ , c o l = 1 : 3 0 , b r e a k s = 5 0 )
3 C l a s e 1 0 0 <−h i s t ( Datos1 , main = ’ H i s t o g r a m a F i n a l \ ncon 100 c l a s e s ’ , c o l = 1 : 4 5 , b r e a k s = 1 0 0 )
Codigo 4 1.R
Figure 1.
Figure 2.
5
Figure 3.
El comportamiento consistente es que independientemente de las clases se muestra un comportamiento

positivamente àsimetrico.
2. Representar gráficamente un estimador kernel de la densidad. Observar el valor que se ha utilizado

para el ancho de banda.
1 DensidadK<−d e n s i t y ( D a t o s 1 )
2 p l o t ( DensidadK , main = ’ E s t i m a d o r K e r n e l de l a D e n s i d a d ’ )
3 p o l y g o n ( DensidadK , c o l = ’ r e d ’ )
Codigo 4 2.R
6
Figure 4.
El valor del ancho de la banda ha sido determinado por defecto, éste es: 3.298.
3. Modificar el valor del ancho de banda observado en el apartado 2 doblando su valor y volver a
representar el estimador kernel de la densidad.
1 D e n s i d a d D o b l a d a <−d e n s i t y ( Datos1 , a d j u s t = 2 )
2 p l o t ( d e n s i t y ( Datos1 , a d j u s t = 2 ) , main = ’ E s t i m a d o r K e r n e l de l a D e n s i d a d \ nDoblado ’ )
3 p o l y g o n ( D e n s i d a d D o b l a d a , c o l = ’ #93F9BE ’ )
Codigo 4 3.R
7
Figure 5.
4. Modificar el valor del ancho de banda observado en el apartado 2 considerando la mitad de su valor
y volver a representar el estimador kernel de la densidad.
1 D e n s i d a d M i t a d <−d e n s i t y ( Datos1 , a d j u s t = 0 . 5 )
2 p l o t ( d e n s i t y ( Datos1 , a d j u s t = 0 . 5 ) , main = ’ E s t i m a d o r K e r n e l de l a D e n s i d a d \ na l a M i t a d ’ )
3 p o l y g o n ( D e n s i d a d M i t a d , c o l = ’ #DFA295 ’ )
Codigo 4 4.R
8
Figure 6.
5. Comparar los tres estimadores kernel que hemos obtenido. ¿Qué ocurre cuando incrementamos el
ancho de banda? ¿Y cuando lo disminuimos?
Podemos evidenciar que el ancho de banda que más nos sirve es el inicial (3.298), cuando lo doblamos
se sobreajusta, haciendo que se evidencie poca precisión sobre los datos, y cuando lo dividimos en
la mitad, se subajusta, haciendo que la dispersión de los datos sea demasiado grande, para hacer una
lectura correcta de la estimación de la densidad.
B. Ejercicio con conjunto de datos Wage librerı́a ISLR

El conjunto de datos Wage de la librerı́a ISLR brinda información de un grupo de trabajadores. Los
datos presentan la información del salario y otras variables de interés de una muestra de tamaño n = 3000.
a) Extraiga las mediciones de la variable age del conjunto de datos e identifique el tipo de variable y su
escala de medición.
1 l i b r a r y ( ISLR )
2 Edad=Wage$ a g e
3 names ( Edad )
4 summary ( Edad )
Codigo 2 a.R
Figure 7.
9
Podemos evidenciar que (age) es una variable cuantitativa de tipo discreta, ya que podemos hacer
operaciones númericas con éstas para su debido análisis, sin embargo, no se admiten valores intermedios
entre los mismos datos. Su escala de medición se evidencia en t=años.
b) Realice el diagrama de barras para la variable Wage y analice gráficamente la distribución de frecuencias
relativas de los datos. Tenga en cuenta caracterı́sticas tales como tendencia, dispersión y forma.
¿Requiere categorizar (construir intervalos) para esta variable?, en dado caso, utilice la regla de Sturges
y usando el método de inclusión a izquierda.
1 S a l a r i o <−Wage$ wage
2 library ( fdth )
3 barplot ( Salario )
4 d i s t <− f d t ( S a l a r i o , b r e a k s =” S t u r g e s ” )
5 dist
6 # Donde
7 #f= frecuencia absoluta
8 # rf= frecuencia relativa
9 # r f (%) f r e c u e n c i a r e l a t i v a p o r c e n t u a l
10 # c f = f r e c u e n c i a acumulada
11 # c f (%)= f r e c u e n c i a a c u m u l a d a p o r c e n t u a l
12 nclass . Sturges ( Salario )
13 summary ( S a l a r i o )
Codigo 2 b.R
Figure 8.
10
Figure 9.
Se evidencia que la distribución de las frecuencias relativas están distribuidas de forma que hay
una mayor concentración en general en los limites de clase contenidos entre[43.0878,182.307] y
especı́ficamente en el limite de clase con el intervalo [89.4942,112.697]. De esta forma podemos
evidenciar que la variable salario tiene una forma asimétrica positiva.
Considere ahora la variable wage, que es propiamente la que proporciona el valor del salario semanal
de los 3000 trabajadores de la muestra.
c) Trace una gráfica adecuada que le permita analizar preliminarmente la tendencia, dispersión y forma
de los datos.
1 # Histograma
2
3 h i s t ( S a l a r i o , main = ’ H i s t o g r a m a \ n S a l a r i o ’ , c o l = 1 : 1 0 , b r e a k s = 6 0 , y l a b = ’ F r e c u e n c i a ’ )
4
5 # Densidad
6
7 density ( Salario )
8 D e n s i d a d<−p l o t ( d e n s i t y ( S a l a r i o , a d j u s t = 0 . 9 ) , main = ’ D e n s i d a d \ n S a l a r i o ’ , x l a b = ’ S a l a r i o ’ , y l a b = ’
Densidad ’ )
9 polygon ( d e n s i t y ( S a l a r i o , a d j u s t = 0 . 9 ) , col = ’ yellow ’ )
Codigo 2 c.R
11
Figure 10.
Figure 11.
Con la revisión de la graficación de los datos en forma de historgrama y densidad, podemos evidenciar
una forma positivamente ası́metrica, una concentración fuerte de los datos más o menos en un rango
de salario de entre 50 y 150, apróximadamente lo que ya habı́amos deducido con el Diagrama de
Barras, sin embargo, estas graficas nos permiten gráficamente ver con mayor claridad, si necesidad de
12
hacer una tabla de frecuencias.
d) Encuentre mediante comandos en R algunas medidas descriptivas de centro, localización, dispersión y

forma (cuartiles inferior y superior, percentiles 10, 25, 50, 75 y 90 de la distribución, media y mediana.
¿Qué puede comentar sobre los salarios, teniendo en cuenta el percentil 90?
1 Resumen<−summary ( S a l a r i o )
2
3 P e r c e n t i l e s <−q u a n t i l e ( S a l a r i o , c ( 0 . 1 , 0 . 2 5 , 0 . 5 , 0 . 7 5 , 0 . 9 ) )
4
5 M<−m a t r i x ( c ( Resumen , P e r c e n t i l e s ) , 1 1 , 1 )
6 c o l n a m e s (M) <− c ( ’ V a l o r e s ’ )
7 row . names (M)<−c ( ’ Min ’ , ’Q1 ’ , ’ Mediana ’ , ’ Media ’ , ’Q3 ’ , ’ M x ’ , ’ P e r c 10% ’ , ’ P e r c 2 5%’ , ’ P e r c 5 0%’ , ’ P e r c 7 5%’ , ’ P e r c 9 0
%’ )
8 M
Codigo 2 d.R
Figure 12.
Hay un 90 por ciento de trabajadores que ganan menos de 154.70360 a la semana, y hay un 10 por
ciento que sobrepasan dicho salario. El promedio de sueldo es de aproximadamente 111.7 a la semana,
la persona que menos gana, gana aprox. 20.1 y la que más gana, gana, 318.3, aprox. La mitad de los
trabajadores ganan menos de 105 x semana aprox.
e) Construya una gráfica de caja. ¿Que comentarios le merecen los datos atı́picos de esta variable? En
comparación con el primer literal de este punto, comente si sus observaciones preliminares fueron
adecuadas.
1 b o x p l o t (M, h o r i z o n t a l =TRUE , b o r d e r =c ( ’ b l a c k ’ ) , main= ’ Diagrama de C a j a S a l a r i o s ’ , x l a b = ’ S a l a r i o s ’ )
Codigo 2 e.R
13
Figure 13.
Este diagrama de caja nos permite observar, que el valor máximo está muy alejado tanto de la media
como de la mediana, está más cercana al promedio la persona que gana menos que la persona que
más gana, económicamente se podrı́a decir, que tal vez esta relación pertenece a una firma/empresa, en
donde, la distribución de la mano de obra está más condensada en la masa obrera, y los administradores,
con salarios más altos, son más bien pocos, esto es muy común en las redes de mano de obra.
Comparando este literal con respecto al b, podemos evidenciar la diferencia en la eficiencia respecto
al análisis de los datos. El diagrama de caja habla por sı́ mismo, en el Diagrama de Barras, por ser
tanta la cantidad de datos, era dificultoso algún análisis preciso.
14
R EFERENCES
[1] T RAZADO DE B ODE, [Online] Disponible en:
http://isa.uniovi.es/ idiaz/ADSTel/Tema.TrazadoBode.pdf [Consultado el 6 de septiembre de 2019].

Lab 1 en R

Загружено:

Сведения о документе

Авторское право

Доступные форматы

Поделиться этим документом

Поделиться или встроить документ

Параметры публикации

Этот документ был вам полезен?

Это неприемлемый материал?

Авторское право:

Доступные форматы

Lab 1 en R

Загружено:

Авторское право:

Доступные форматы

1

1. Leer los datos utilizando el método que se prefiera.

1 s e t w d ( ”D : / Google D r i v e /UNAL/ ELECTRNICA / I I I / PyEF ” )

1 media <− mean ( d a t o s )

1 > c a t ( ” La media e s : ” , media )

Se incorporaron los nuevos datos:

y se obtuvieron en consola los siguientes resultados:

La mediana no varió mucho, ya que es insensible a datos extremos.

1 C l a s e 1 5 <−h i s t ( Datos1 , main = ’ H i s t o g r a m a F i n a l \ ncon 15 c l a s e s ’ , c o l = 1 : 1 0 , b r e a k s = 1 5 )

El comportamiento consistente es que independientemente de las clases se muestra un comportamiento

2. Representar gráficamente un estimador kernel de la densidad. Observar el valor que se ha utilizado

B. Ejercicio con conjunto de datos Wage librerı́a ISLR

hacer una tabla de frecuencias.

d) Encuentre mediante comandos en R algunas medidas descriptivas de centro, localización, dispersión y

1 b o x p l o t (M, h o r i z o n t a l =TRUE , b o r d e r =c ( ’ b l a c k ’ ) , main= ’ Diagrama de C a j a S a l a r i o s ’ , x l a b = ’ S a l a r i o s ’ )

Вам также может понравиться