Вы находитесь на странице: 1из 7

Ahora realiza la actividad

PLANTEAMIENTO Y OBJETIVO:
Tomamos datos de la siguiente publicacin:
"Using Cigarette Data for an Introduction to Multiple Regression", by Lauren Mcintyre in Volume
2, Number 1, of the Journal of Statistics Education.
La primera parte del objetivo lo cubriremos con esta tarea p2p, y la segunda parte, lo cubriremos en
la segunda tarea p2p al finalizar el mdulo 4.
Estudios realizados con anterioridad ponen de manifiesto que incrementos en el contenido de
alquitrn y nicotina de los cigarrillos vienen acompaados por incrementos en el monxido de
carbono emitido al fumar. Partimos de estos datos y nos planteamos el siguiente objetivo:

OBJETIVO: Hacer el estudio descriptivo de los datos y encontrar un modelo que nos permita
estimar la cantidad de MONOXIDO de CARBONO, a partir de las variables Alquitrn, Nicotina y
Peso del cigarrillo.
Tarea. Hacer un estudio descriptivo de las variables que intervienen en el estudio. La
realizacin de esta tarea ir en un documento a parte que tendrs que subir en el apartado "Fichero
opcional" que se encuentra al final de la actividad p2p. Este documento tendr 3 partes:

PARTE 1: Genere un breve informe estadstico descriptivo, a partir de la salida de ordenador


que se adjunta (tmese el espacio que necesite pero sea breve), en el que seale:

1) el tamao muestral: 25
2) cul es la variable con mayor variabilidad,
La variable con mayor variabilidad (con ms dispersin) es el alquitrn, debido a que tiene la
desviacin tpica ms elevada con respecto a su media, lo que indica que sus valores se encuentran
muy dispersos con respecto a la media.
Adems al realizar el clculo del coeficiente de variacin, tenemos que el coeficiente de variacin
ms elevado es de alquitrn, confirmando la variable con mayor variabilidad.
C.V
alquitrn
0.49732566
nicotina
0.40433904
peso
0.09040807
monoxidocarbo 0.37832695
Recordemos que el Coeficiente de variacin (CV) se utiliza para comparar la dispersin de las
variables.
3) cul de las medias es ms representativa de los datos
La media ms representativa es el monxido de carbono, debido a que tiene la media ms elevada
de todas, indicando la recurrencia de valores del monxido de carbono.
Aunque hay que analizar si se eliminan los datos aberrantes para tener mejor precisin.
4) cul de las medias es ms estable.
El ms estable es el "peso", debido a que tiene la menor desviacin tpica, lo que indica que sus
valores estn muy concentrados a la media, adems esta variable tiene el CV ms bajo , lo que
indica que de todas las variables es la que tiene menor dispersin.

Parte 2. Analice los percentiles a partir de la tabla correspondiente que aparece debajo.
Escriba un breve informe con los resultados ms relevantes
de la tabla) para todas y cada una
de las variables. En el informe compare, adems, los resultados obtenidos con la Media y su
dispersin y la Mediana y su dispersin.

Recorrido intercautilico

Monox.
Carb.
alquitran
nicotina
peso

mediana
13
12.4
0.9
0.9573

Q3
15.65
15.15
1.03
1.01685

Q1
9.75
7.9
0.68
0.92055

R.I.
5.9
7.25
0.35
0.0963

Se puede visualizar que el menor recorrido intercautlico le corresponde al peso, indicando que sus
valores estn muy concentrados en su mediana, adems la variable con mayor recorrido
intercuartlico es el alquitrn, indicando mayor variablilidad.
Estas conclusiones refuerzan lo descrito en la pregunta n1

Parte 3. Analice los Box plot (diagramas de caja) que se adjuntan y saque las conclusiones ms
relevantes. Debe escribir, al menos, sobre la posible asimetra y la existencia, o no, de outliers

Segn los datos se procede a identificar los valores del grfico:


Valor mnimo P10 : 5.2
Valor mximo P90 : 17.90
Presencia de outliers: se han detectado dos valores que se encuentran por debajo del valor mnimo
y dos valores que se encuentran por encima del valor mximo.
Base de la caja Q1: 9.75
Tapa de la caja Q3:15.65
Rango Intercuartilico: 5.9
Mediana P50: 13
Desviacin respecto a la media:
Desviacin (-) : 9.75-13: -3.25
Desviacin (+) : 15.65-13: 2.65
Se puede verificar que existe una ligera desviacin de los datos con respecto a la mediana,
siendo ligeramente asimtrico.

Segn los datos se procede a identificar los valores del grfico:


Valor mnimo P10 : 4.1
Valor mximo P90 : 25.96
Presencia de outliers: se han detectado un valor que se encuentra por encima del valor mximo.
Base de la caja Q1: 7.9
Tapa de la caja Q3:15.15
Rango Intercuartilico: 7.25
Mediana P50: 12.4
Desviacin respecto a la media:
Desviacin (-) : 7.9-12.4: -4. 5
Desviacin (+) : 15.15-12.4: 2.75
Se puede verificar que existe una desviacin de los datos con respecto a la mediana,
mostrando una notable asimetra, as mismo se observan los bigotes asimtricos.

Segn los datos se procede a identificar los valores del grfico:


Valor mnimo P10 : 0.412
Valor mximo P90 : 1,175
Presencia de outliers: se han detectado dos valores que se encuentran por debajo del valor mnimo
y dos valores por encima del valor mximo.
Base de la caja Q1: 0.68
Tapa de la caja Q3:1.03
Rango Intercuartilico: 0.35, esto indica poca amplitud de los datos, por tanto tiene poca
variabilidad
Mediana P50: 0.9
Desviacin respecto a la media:
Desviacin (-) : 0.68-0.9: -0.22
Desviacin (+) : 1.03-0.9: 0.13
Se puede verificar que existe una ligera desviacin de los datos con respecto a la mediana,
mostrando una notable asimetra.

Segn los datos se procede a identificar los valores del grfico:


Valor mnimo P10 : 0.87216
Valor mximo P90 : 1.120640
Presencia de outliers: se han detectado dos valores que se encuentran por debajo del valor mnimo
y un valor que se encuentra por encima del valor mximo.
Base de la caja Q1: 0.92055
Tapa de la caja Q3:1.01685
Rango Intercuartilico: 0.0963
Mediana P50: 0.9573
Desviacin respecto a la media:
Desviacin (-) : 0.92055-0.9573: -0.03675
Desviacin (+) : 1.01685-0.9573:0.05955
Se puede verificar que existe una ligera desviacin de los datos con respecto a la mediana,
mostrando una notable asimetra.

Вам также может понравиться