Вы находитесь на странице: 1из 21

Paso 4. Descripción de la Información.

Tutor/a: María José Charfuelan

Estudiante: Julian solaque

Código: 1019096223

Grupo: 75

Universidad Nacional Abierta y a Distancia UNAD


Escuela Ciencias Básicas Tecnología e Ingeniería
Ingeniería en Electrónica
Estadística Descriptiva
Bogotá
Introducción

El siguiente trabajo, inicialmente se fundamenta en el reconocimiento de temáticas


relacionadas a la estadística descriptiva propuestas dentro de la unidad 3. Que se van
abordar en el desarrollo del curso, dichas temáticas son, las medidas estadísticas bivariantes
de regresión y correlación.
Para el desarrollo de esta actividad, fue necesaria colocar en práctica las diferentes
temáticas estudiadas y ajustar a la Identificación de los principales factores que influyen en
los resultados de las pruebas SABER 11 en estudiantes de Instituciones públicas y privadas
de Colombia, con la finalidad de que el aprendizaje sea más dinámica
Justificación

En este trabajo lo que se busca es generar conocimiento, habilidades y destrezas para que el
aprendiz pueda apropiar nuevos elementos entorno a la estadística descriptiva, donde pueda
tomar un determinado tema y transformarlo en resultados para poder tomar decisiones,
iniciativas o implementar estrategias que conlleven a mejorar diversas situaciones del
individuo, comunidad u organizaciones. Es por esto que el desarrollo de esta actividad
estará enmarcada en los factores que influyen en el rendimiento académico de los
estudiantes en instituciones públicas
Objetivo general

Entender y poner en prácticas las temáticas estudiadas en la unidad 3 y aplicar al tema de


los resultados de las pruebas SABER 11 en estudiantes de Instituciones públicas y privadas
de Colombia,

Objetivo específicos:
Desarrollar los ejercicios propuestos para esta fase en las siguientes temáticas:
 Regresión lineal
 -coeficiente de determinación lineal.
 -coeficiente de correlación.
 -Análisis de correlación.
 -Regresión simple.
 -Diagramas de dispersión.
Mapa mental
Descripción de la Actividad Individual:

Diagrama de dispersión:
Es gráfico de burbujas es un tipo de diagrama matemático que utiliza las coordenadas
cartesianas para mostrar los valores de dos variables para un conjunto de datos.

Correlación lineal simple


Son métodos estadísticos que estudian la relación lineal existente entre dos variables.
Para estudiar la relación lineal existente entre dos variables continuas es necesario disponer
de parámetros que permitan cuantificar dicha relación. Uno de estos parámetros es
la covarianza, que indica el grado de variación conjunta de dos variables aleatorias

Coeficiente de determinación R2
El coeficiente de determinación, se define como la proporción de la varianza total de la
variable explicada por la regresión. El coeficiente de determinación, también llamado R
cuadrado, refleja la bondad del ajuste de un modelo a la variable que pretender explicar.
Cuanto más cerca de 1 se sitúe su valor, mayor será el ajuste del modelo a la variable que
estamos intentando explicar. De forma inversa, cuanto más cerca de cero, menos ajustado
estará el modelo y, por tanto, menos fiable será.

Correlación positiva y correlación negativa


Correlación Positiva
Se habla de una correlación positiva cuando una relación entre una variable y otra es lineal
y directa, de manera que un cambio en una variable predice el cambio en la otra variable.
En ese caso, se dice que la correlación es positiva perfecta, es decir, ambas variables varían
al mismo tiempo. Este tipo de correlación es directamente proporcional. Hay correlación
positiva cuando las dos variables se correlacionan en sentido directo. Por lo que, a valores
altos de una le corresponden valores altos de la otra e igualmente con los valores bajos
Correlación Negativa
Se habla de una correlación negativa cuando la relación entre una variable y otra es opuesta
o inversa, es decir, cuando una variable cambia, la otra se modifica hacia lo contrario.
Entonces, cuando una posee variable valores altos, la otra posee valores bajos y mientras
este valor esté más cerca de -1, más evidente será esta covariación.
¿Qué es el coeficiente de correlación lineal y qué nos ayuda a medir?
El Coeficiente de correlación es una medida que permite conocer el grado de asociación
lineal entre dos variables cuantitativas (X, Y).
En los siguientes Diagramas de dispersión se puede observar que existe una relación lineal
entre la variable X y la variable Y

Sin embargo, si trazamos una línea recta en los diagramas.

Podemos observar que en un diagrama B los puntos se acercan más a la recta, caso
contrario en el diagrama A, los puntos están más alejados. Entonces podemos decir que la
relación lineal del diagrama A es más débil con comparación a la relación que existe en el
diagrama B.
Un diagrama dispersión no nos da certeza de que tan débil o fuerte es la relación lineal,
necesitamos una medida que nos de la fuerza de la asociación y la dirección que toma esta
relación
Para esto sirve el coeficiente de correlación que está dado por la siguiente formula.
Laboratorio Regresión y Correlación Lineal: Desarrollar en el paso 4.

1.1. CH-Pureza.

El rendimiento del producto de un proceso químico está relacionado con la


temperatura de operación del proceso. Se desea establecer la relación que existe
entre la pureza (y) del oxígeno producido y el porcentaje de hidrocarburo (x) que
está presente en el condensador principal en un proceso de destilación, de acuerdo
con los siguientes datos:

X (% de Hidro
Y (Pureza)
carburos)

0,95 90,04
1,03 89,06
1,16 91,39
1,27 93,73
1,44 96,71
1,3 94,44
0,82 87,57
1,21 91,78
1,56 99,39
1,42 93,55
1,17 93,43
1,13 92,5
0,97 90,4
1 89,3
1,12 89,83
1,18 90,35
1,23 93,19
1,33 93,31
1,42 94,77
0,93 87,32

a. Realice el diagrama de dispersión y determine el tipo de asociación entre las


variables.

Pureza vs % de Hidrocarburos
105

100

95
Pureza

f(x) = − 0.05 x + 92.67


90 R² = 0.01

85

80
0 5 10 15 20 25
% Hidrocarburos

Respuesta: El tipo de asociación entre las variables es positiva, ya que a medida que
aumentan los valores de pureza también aumenta el % de hidrocarburos.
b. Encuentre el modelo matemático que permite predecir el efecto de una variable
sobre la otra. ¿Es confiable?
Respuesta: El modelo matemático que predice el efecto de una variable sobre la otra es
y=mx+b y para esta gráfica es el siguiente:
y = 14,247x + 75,263
El modelo es confiable ya que el resultado obtenido es R 2=0,8532, el cual es bastante
cercano a 1, es decir que entre más cercano a 1 mayor confiabilidad de predicción sobre el
efecto de una variable en la otra.
c. Determine el porcentaje de explicación del modelo y el grado de relación de las
dos variables.
Ya que conocemos el coeficiente de correlación, al multiplicarlo por 100% podemos
determinar que el porcentaje de explicación de este modelo es de un 85%. En cuanto al
grado de relación, al analizar el resultado de R=0,9236 y determinando el porcentaje,
obtenemos que el grado de relación es de 92,36%.
d. ¿Cuál es el porcentaje de hidrocarburo cuando la pureza del oxígeno es igual a
92,3?
Para determinar este porcentaje y sabiendo el valor de y=92,3 despejamos x y obtenemos:
y=14,247 x +75,263
92,3−75,263
x= x=87,02 % de hidrocarburo
14,247
1.2. Temperatura-consumo de gaseosa.
El número de gaseosas (y) consumidas mensualmente en un sector de la ciudad de
barranquilla, se relaciona con la temperatura promedio (en o F). Para el año 2018, se
registraron los siguientes valores de temperatura y consumo de gaseosas.

2018 registros de temperatura y consumos gaseosas.

Consumo
Mes Temperatura (F)
gaseosas (lts)

Ene. 23 188,14
Feb. 26 216,82
Mar. 34 290,38
Abr. 49 427,19
May. 52 457,35
Jun. 61 541,35
Jul. 70 623,9
Ago. 76 677,41
Sep. 64 564,38
Oct. 52 455,28
Nov. 43 372,3
Dic. 32 276,33

a. Realice el diagrama de dispersión y determine el tipo de asociación entre las


variables.
Consumo gaseosas (lts) vs Temperatura
800
700
f(x) = 9.21 x − 22.39
Consumo gaseosas (lts) 600 R² = 1
500
400
300
200
100
0
20 30 40 50 60 70 80
Temperatura (F)

El tipo de asociación entre las variables es positiva, ya que las variables son dependientes; a
medida que aumenta la temperatura también aumenta el consumo de gaseosa.

b. Ajuste un modelo matemático que permita predecir el efecto de una variable sobre
la otra. ¿Es confiable?

Respuesta: El modelo matemático que predice el efecto de una variable sobre la


otra es y=mx+b y para esta gráfica es el siguiente:

y = 9,2087x - 22,386

El modelo es confiable ya que el resultado obtenido para el coeficiente de relación


es R2=0,999, el cual al aproximarlo es igual a 1, es decir que entre más cercano a 1
mayor confiabilidad de predicción sobre el efecto de una variable en la otra.

c. Determine el porcentaje de explicación del modelo y el grado de relación de las dos


variables.

Ya que conocemos el coeficiente de correlación, al multiplicarlo por 100% podemos


determinar que el porcentaje de explicación de este modelo es de un 99,99%. En
cuanto al grado de relación, al analizar el resultado de R=0,9999 y determinando el
porcentaje, obtenemos que el grado de relación es igual al coeficiente que es de
99,99%.

d. ¿Cuál es el de consumo de gaseosas cuando la temperatura es de 70 oF?


Para determinar este porcentaje y sabiendo el valor de x=70 obtenemos:
y=9,2087 x−22,386
y=9,2087(70)−22,386x=622,22 litros de gaseosa

1.3. Temperatura – Enfermedad respiratoria.

En una investigación realizada durante el mes de agosto en un hospital pediátrico


respecto a la relación de la temperatura ambiente media y los casos de enfermedad
registrados se obtuvieron los siguientes datos

Temperatura Casos de enfermedad


Media °C respiratoria

9 28
11 26
14 22
15 22
17 22
18 16
20 12
21 6
22 6

1. Realice el diagrama de dispersión y determine el tipo de asociación entre las


variables.
Temperatura Media °C vs Casos de enfermedad respiratoria
30
f(x) = − 1.73 x + 46.09

casos de enfermedad respiratoria


R² = 0.89
25

20

15

10

0
8 10 12 14 16 18 20 22 24
Temperatura Media °C

El tipo de asociación entre las variables es negativa, ya que las variables son dependientes y
a medida la temperatura disminuye, los casos de enfermedad respiratoria aumentan.

2. Ajuste un modelo matemático que permita predecir el efecto de una variable sobre
la otra. ¿Es confiable?

Respuesta: El modelo matemático que predice el efecto de una variable sobre la otra es
y=mx+b y para esta gráfica es el siguiente:

y = -1,7333x + 46,089

3. El modelo es confiable ya que el resultado obtenido para el coeficiente de relación es


R2=0,8909, el cual es cercano a 1, es decir que entre más cercano a 1 mayor
confiabilidad de predicción sobre el efecto de una variable en la otra.

4. Determine el porcentaje de explicación del modelo y el grado de relación de las dos


variables.

Ya que conocemos el coeficiente de correlación, al multiplicarlo por 100% podemos


determinar que el porcentaje de explicación de este modelo es de un 89,09%. En
cuanto al grado de relación, al analizar el resultado de R=0,9439 y determinando el
porcentaje, obtenemos que el grado de relación es de 94,39%.

5. ¿Cuál será el número de casos esperados de enfermedad respiratoria en el hospital,


si la temperatura cae a 7 °C?

Para determinar este porcentaje y sabiendo el valor de y=92,3 despejamos x y obtenemos:


y=−1,7333 x +46,089
7−46,089
x= x=22,55 es el numero de casos esperados .
−1,7333

Actividad 4. Regresión y correlación Lineal.


 Identificar dos variables cuantitativas de la situación estudiada que puedan estar
relacionadas e identificar la variable dependiente e independiente.

NUMERO DE
CUARTOS EN EL
PERSONAS EN EL
HOGAR
HOGAR

2 2
3 3
5 3
3 3
3 1
3 4
2 1
3 1
5 4
1 2
4 2
6 3
10 6
6 4
2 2
3 4
3 3
5 4
3 1
7 4
3 2
5 4
4 2
4 2
4 3
4 3
2 2
4 2
4 3
4 3
4 3
4 2
4 3
4 3
4 3
4 4
4 4
4 4
4 5
2 6
2 7
4 8
7 9
3 7
3 7
5 7
7 7
3 6
3 6
2 4
3 4
2 4
3 3
3 3
5 3
3 3
5 3
3 2
10 6
3 1
2 1
10 6
6 4
4 2
2 2
2 2
4 2
6 2
6 2
4 2
6 3
11 2
2 2
4 5
6 2
2 1
6 2
4 3
5 6
5 4
5 1
6 2
6 4
2 1
2 1
4 3
5 3
4 2
6 5
6 5
2 2
4 3
4 3
4 3
4 2
4 3
4 3
4 3
4 3
4 3
4 3
4 2
2 3
4 3
4 3
7 4
3 3
6 1
6 4
4 4
4 3
4 3
12 3
4 2
4 2
4 3
4 2
4 3
4 3
4 4
4 3
4 5
6 3
4 3
6 5
4 4
4 2
4 4
6 4
4 3
2 2
4 3
6 4
4 3
4 3
6 4
4 2
4 2
4 3
11 6
4 2
4 3
4 3
6 4
4 3
4 3
4 4
4 3
6 4
4 3
4 3
6 4
4 3
4 3
6 3
4 2
4 3
6 5
6 4
4 3
6 3
6 3
4 2
4 3
4 3
6 4
4 3
4 3
4 3
6 4
4 3
8 5
6 4
6 4
4 3
4 5
4 3
4 3
4 3
6 4
6 5
6 4
4 3
6 3
4 3
4 3
2 2
4 3
2 2
4 3
6 2
6 2
6 2
2 3
4 2
4 3
3 5
4 4
4 4
6 3
6 5
4 2
4 4
4 3
4 4
2 2
6 3
4 -
6 4
2 2
2 2
4 4
6 3
2 2
6 5
4 3
4 3
6 4
4 3
4 2

La variable dependiente es el número de cuartos en el hogar, ya que depende del número de


personas en el hogar que es la variable independiente.
 Realizar el diagrama de dispersión de dichas variables y determinar el tipo de
relación entre las variables.

# personas en el hogar vs cuartos en el hogar


10
9
8
Cuartos en el hogar

7
6
5 f(x) = 0.28 x + 2
4 R² = 0.12
3
2
1
0
0 2 4 6 8 10 12 14
Numero de personas en el hogar

El tipo de relación es nula, ya que no existe una relación clara entre las variables.
 Encuentre el modelo matemático que permite predecir el efecto de una variable
sobre la otra. ¿Es confiable?

Respuesta: El modelo matemático que predice el efecto de una variable sobre la otra
es y=mx+b y para esta gráfica es el siguiente:
y = 0,2814x + 1,9955

No es confiable, debido a que el coeficiente de relación es R² = 0,1215, el cual es


bastante alejado de 1.

 Determine el grado de correlación de las dos variables.


R² = 0,1215
R=√ 0,1215 R=0,348

 Relacionar la información obtenida con el problema.

En base de los resultados obtenidos con la gráfica, se puede deducir que en algunos
de los hogares encuestados, existe un gran número de personas en hogares que no
cuentan con los suficientes cuartos, también es fácil identificar que hay hogares en
los que habitan dos personas y cuentan con 7 cuartos, lo que hace esta relación
bastante desproporcional y por ende nula.

Conclusiones

Se logró desarrollar cada uno de los ejercicios propuestos para el paso 4 mediante la
investigación basada en los recursos brindados por medio de la plataforma virtual.
Se obtuvieron los conocimientos y destrezas necesarias para el desarrollo de los ejercicios
mediante la previa contextualización de los conceptos dados a investigar para este trabajo.
Además de esto, se logró realizar las gráficas propuestas y estudiar las ecuaciones
matemáticas que la representan, definiendo relaciones entre sus variables.
Referencias

 Montero, J. M. (2007). Características de Una Distribución de Frecuencias.


Statistical Descriptive.   Cengage Learning Paraninfo, S.A. (pp 41-50). Recuperado
de http://go.galegroup.com/ps/i.do?id=GALE
%7CCX4052100008&v=2.1&u=unad&it=r&p=GVRL&sw=w&asid=99feba20c33
12cbea60961107ffc27a0
 Montero, J.M. (2007). Regresión y Correlación Simple. Madrid: Paraninfo. (pp 151
– 158). Recuperado de http://go.galegroup.com/ps/i.do?id=GALE
%7CCX4052100011&v=2.1&u=unad&it=r&p=GVRL&sw=w&asid=b82c81e98fcc
1361e1929abe203c8219
 Churchill, G.A. (2009). Análisis de Correlación y de Regresión Simple. México
City: Cengage Learning. (pp 675–686). Recuperado
de http://go.galegroup.com/ps/i.do?id=GALE
%7CCX4058900232&v=2.1&u=unad&it=r&p=GVRL&sw=w&asid=e5

Вам также может понравиться