Академический Документы
Профессиональный Документы
Культура Документы
PARTICIPANTES:
STEPHANY ANGEL GOMEZ
DAYANNA PATRICIA UMAÑA
DIEGO FERNANDO CASTILLO
HERNAN FELIPE LOZANO
GRUPO: 100105_261
PRESENTADO A:
EDWARD FERNANDO TORO
La estadística es una disciplina aplicada en todos los campos de la vida humana, de ahí que
se tiene como una materia indispensable en todas las áreas y carreras del conocimiento de
nivel profesional. La importancia de este trabajo es aprender sobre la estadísticas
bivariantes a realizar diagramas de dispersión, regresión y correlación entre las variables.
OBJETIVOS
Objetivo General
Objetivos Específicos
Diagrama de dispersión
Los diagramas de dispersión usan una colección de puntos colocados usando coordenadas
cartesianas para mostrar valores de dos variables. Al mostrar una variable en cada eje, se
puede detectar si existe una relación o correlación entre las dos variables.
Se pueden interpretar varios tipos de correlación a través de los patrones mostrados en los
diagramas de dispersión. Estos son: positivo, los valores aumentan juntos, negativo, un
valor disminuye a medida que el otro aumenta, nulo, sin correlación, lineal, exponencial y
en forma de U. La fuerza de la correlación puede determinarse por la proximidad de los
puntos entre sí en el gráfico. Los puntos que terminan muy lejos del conjunto general de
puntos se conocen como valores atípicos.
Si la tendencia general es que los puntos suban a la derecha de la gráfica, entonces se dice
que hay una correlación positiva entre las dos variables medidas. Si los puntos caen a la
izquierda de la gráfica, se dice que hay una correlación negativa. Si no hay tendencia
general, entonces no hay correlación. Si la tendencia no es muy pronunciada, es decir, los
puntos están dispersos ampliamente entonces se dice que las variables están débilmente
correlacionadas. Si la correlación es más pronunciada, se dice que las variables están
fuertemente correlacionadas.
Las líneas o curvas se ajustan dentro del gráfico para ayudar en el análisis y se dibujan tan
cerca de todos los puntos como sea posible para mostrar cómo se condensaron todos los
puntos en una sola línea. Esto se conoce normalmente como línea de mejor ajuste o línea de
tendencias esta se puede utilizar para hacer estimaciones mediante interpolación.
Coeficiente de determinación 𝑹𝟐
Es una medida estadística de la bondad del ajuste o fiabilidad del modelo estimado a los
datos. Se representa por R2 e indica cuál es la proporción de la variación total en la variable
dependiente (Y), que es explicada por el modelo de regresión estimado, es decir, mide la
capacidad explicativa del modelo estimado.
Si dos variables no covarían, no se puede hacer predicciones válidas, y si la intensidad de la
covariación es moderada, las predicciones no serán demasiado buenas. En consecuencia,
hay que disponer de alguna medida de la capacidad de la ecuación de Regresión para
obtener predicciones buenas (en el sentido de que sean lo menos erróneas posible).
El coeficiente de determinación no sólo mide la capacidad explicativa de un modelo, sino
que, además, permite elegir entre varios modelos cuál es el más adecuado. Así si los
modelos tienen la misma variable dependiente y el mismo número de variables
explicativas, será más adecuado el que tenga un coeficiente de determinación mayor. Sin
embargo, si se trabaja con modelos anidados (uno tiene el mismo número de variables
explicativas que otro y alguna más), entonces el coeficiente de determinación ya no es
adecuado para establecer cuál de los modelos es el mejor para explicar la variable
dependiente. Esto es debido a que al aumentar el número de variables explicativas entonces
la suma residual disminuye y, por lo tanto, será necesario trabajar con una medida que
tenga en cuenta el número de variables explicativas del modelo, este coeficiente se conoce
como el coeficiente de determinación corregido ( ̅𝑅̅̅̅2 )
Correlación negativa
Se habla de una correlación negativa cuando la relación entre una variable y otra es opuesta
o inversa, es decir, cuando una variable cambia, la otra se modifica hacia lo contrario.
Entonces, cuando una posee variable valores altos, la otra posee valores bajos y mientras
este valor esté más cerca de -1, más evidente será esta covariación.
Se dice que hay correlación negativa perfecta cuando r = -1. Este tipo de correlación es
inversamente proporcional. Entonces, hay correlación negativa cuando las dos variables se
correlacionan en sentido inverso.
Diagrama de dispersión:
Un diagrama de dispersión o gráfica de dispersión o gráfico de dispersión es un tipo de
diagrama matemático que utiliza las coordenadas cartesianas para mostrar los valores de
dos variables para un conjunto de datos.
Se emplea cuando una o varias variables está bajo el control del experimentador. Si existe
un parámetro que se incrementa o disminuye de forma sistemática por el experimentador,
se le denomina parámetro de control o variable independiente y habitualmente se representa
a lo largo del eje horizontal (eje de las abscisas). La variable medida o dependiente
usualmente se representa a lo largo del eje vertical (eje de las ordenadas). Si no existe una
variable dependiente, cualquier variable se puede representar en cada eje y el diagrama de
dispersión mostrará el grado de correlación (no causalidad) entre las dos variables.
Un diagrama de dispersión puede sugerir varios tipos de correlaciones entre las variables
con un intervalo de confianza determinado. La correlación puede ser positiva (aumento),
negativa (descenso), o nula (las variables no están correlacionadas). Se puede dibujar una
línea de ajuste (llamada también "línea de tendencia") con el fin de estudiar la correlación
entre las variables. Una ecuación para la correlación entre las variables puede ser
determinada por procedimientos de ajuste. Para una correlación lineal, el procedimiento de
ajuste es conocido como regresión lineal y garantiza una solución correcta en un tiempo
finito.
Uno de los aspectos más poderosos de un gráfico de dispersión, sin embargo, es su
capacidad para mostrar las relaciones no lineales entre las variables. Además, si los datos
son representados por un modelo de mezcla de relaciones simples, estas relaciones son
visualmente evidentes como patrones superpuestos.
Todos ellos varían entre +1 y -1. Siendo +1 una correlación positiva perfecta y -1
una correlación negativa perfecta.
Se emplean como medida de fuerza de asociación (tamaño del efecto):
o 0: asociación nula.
o 0.1: asociación pequeña.
o 0.3: asociación mediana.
o 0.5: asociación moderada.
o 0.7: asociación alta.
o 0.9: asociación muy alta.
Coeficiente de determinación R2:
El R Cuadrado se define como la proporción de la varianza total de la variable
explicada por la regresión. El R Cuadrado, también llamado coeficiente de
determinación, refleja la bondad del ajuste de un modelo a la variable que pretender
explicar.
El R Cuadrado ajustado es la medida que define el porcentaje explicado por la varianza de
la regresión en relación con la varianza de la variable explicada. Es decir, lo mismo que el
R Cuadrado, pero con una diferencia. Esa diferencia se encuentra en que el R Cuadrado
ajustado penaliza la inclusión de variables.
Cómo hemos dicho anteriormente el R Cuadrado de un modelo aumenta aunque las
variables que incluyamos no sean relevantes. Ya que esto supone un problema, para
intentar solventarlo el R Cuadrado ajustado queda tal que:
Diagrama de dispersión
El diagrama de dispersión permite estudiar las relaciones entre dos conjuntos asociados de
datos que aparecen en pares (por ejemplo, (x,y), uno de cada conjunto). El diagrama
muestra estos pares como una nube de puntos.
Las relaciones entre los conjuntos asociados de datos se infieren a partir de la forma de las
nubes.
Una relación positiva entre x y y significa que los valores crecientes de x están asociados
con los valores crecientes de y.
Una relación negativa significa que los valores crecientes de x están asociados con los
valores decrecientes de y.
Entre sus usos está descubrir y mostrar las relaciones entre dos conjuntos asociados de
datos y confirmar relaciones anticipadas entre dos conjuntos asociados de datos.
El diagrama de dispersión puede estudiar la relación entre:
Dos factores o causas relacionadas con la calidad.
Dos problemas de calidad.
Un problema de calidad y su posible causa.
Correlación lineal simple
Siendo:
Cov (x;y): la covarianza entre el valor “x” e “y”.
σ(x): desviación típica de “x”.
σ(y): desviación típica de “y”.
Coeficiente de determinación R2
En la expresión anterior tenemos una fracción. Así pues, vayamos por partes. En primer
lugar, analizaremos el numerador, es decir, la parte de arriba.
Correlación Positiva
Se habla de una correlación positiva cuando una relación entre una variable y otra es lineal
y directa, de manera que un cambio en una variable predice el cambio en la otra variable.
En ese caso, se dice que la correlación es positiva perfecta, es decir, ambas variables varían
al mismo tiempo. Este tipo de correlación es directamente proporcional. Hay correlación
positiva cuando las dos variables se correlacionan en sentido directo. Por lo que, a valores
altos de una le corresponden valores altos de la otra e igualmente con los valores bajos.
Correlación Negativa
Se habla de una correlación negativa cuando la relación entre una variable y otra es opuesta
o inversa, es decir, cuando una variable cambia, la otra se modifica hacia lo contrario.
Entonces, cuando una posee variable valores altos, la otra posee valores bajos y mientras
este valor esté más cerca de -1, más evidente será esta covariación.
Se dice que hay correlación negativa perfecta cuando r = -1. Este tipo de correlación es
inversamente proporcional. Entonces, hay correlación negativa cuando las dos variables se
correlacionan en sentido inverso.
Diagrama de dispersión
El diagrama de dispersión permite estudiar las relaciones entre dos conjuntos asociados de
datos que aparecen en pares (por ejemplo, (x,y), uno de cada conjunto). El diagrama
muestra estos pares como una nube de puntos. Las relaciones entre los conjuntos asociados
de datos se infieren a partir de la forma de las nubes. Una relación positiva entre x y y
significa que los valores crecientes de x están asociados con los valores crecientes de y.
Una relación negativa significa que los valores crecientes de x están asociados con los
valores decrecientes de y.
¿Para qué se usa un diagrama de dispersión?
Entre sus usos está descubrir y mostrar las relaciones entre dos conjuntos asociados de
datos y confirmar relaciones anticipadas entre dos conjuntos asociados de datos.
El diagrama de dispersión puede estudiar la relación entre:
Correlación
La correlación no es más que cómo se relacionan ambas variables entre sí. En la tabla
siguiente te muestro algunos tipos de correlación
A continuación te muestro algunos ejemplos de estos tipos de correlación:
Línea de ajuste
La línea de ajuste se usa para hacer predicciones basándonos en datos pasados. Cuando se
dibuja la recta, debemos asegurarnos de que encaje con la mayor parte de los datos. Si hay
un punto que está muy por encima o muy por debajo con respecto al resto (puntos atípicos)
debemos dejarlo fuera de la recta.
Coeficiente de correlación de Pearson
En estadística, el coeficiente de correlación de Pearson es una medida de la relación lineal
entre dos variables aleatorias cuantitativas. A diferencia de la covarianza, la correlación de
Pearson es independiente de la escala de medida de las variables.
De manera menos formal, podemos definir el coeficiente de correlación de Pearson como
un índice que puede utilizarse para medir el grado de relación de dos variables siempre y
cuando ambas sean cuantitativas.
Análisis de correlación lineal simple de las dos variables cuantitativas seleccionadas
250
200 Peso
150
Linear (Peso)
100
50
0
0 10 20 30 40 50 60 70 80 90 100
Edad
Ejercicios
1.1. Sal-Tensión
Y
X (SAL) (TENSION)
1,6 98
2,3 102
3,3 109
4,2 113
4,6 115
5,0 120
120
100
80
Tensión
60
40
20
0
0 1 2 3 4 5 6
Sal
1.4. X-Y.
En un nuevo proceso artesanal de fabricación de cierto artículo que está implantado, se ha
considerado que era importante ir anotando periódicamente el tiempo medio (medido en
minutos) que se utiliza para realizar una pieza y el número de días desde que empezó dicho
proceso de fabricación. Con ello, se pretende analizar como los operarios van adaptándose
al nuevo proceso mejorando paulatinamente su proceso de producción.
Los siguientes datos representan dicha situación:
x 12 23 35 42 53 65 70
y 45 30 27 25 23 21 20
a. Identifique la variable dependiente (y) y la variable independiente (x),realice el diagrama
de dispersión y determine el tipo de asociación entre las variables
Diagrama de dispersión
50 y = -0.3566x + 42.569
45 R² = 0.7963
40
35
30
Y (Dias)
25
y
20
15 Linear (y)
10
5
0
0 20 40 60 80
X (Minutos)
1.9. Sobrepeso-R.
Los investigadores están estudiando la correlación entre la obesidad y la respuesta
individual al dolor. La obesidad se mide como porcentaje sobre el peso ideal (x). La
respuesta al dolor se mide utilizando el umbral de reflejo de reflexión nociceptiva (y) que
es una medida de sensación de punzada. Obsérvese que ambas, X e Y, son variables
aleatorias
%
Sobrepeso Umbral de reflejo
99 2,0
90 3,0
20 4,0
75 9,5
30 11,5
62 9,0
75 9,0
90 12,5
45 8,0
50 19,0
a. Realice el diagrama de dispersión y determine el tipo de asociación entre las variables.
Diagrama de dispersión
20.0
18.0
16.0
Umbral de reflejo
14.0
12.0
10.0 Umbral de reflejo
8.0
6.0 Linear (Umbral de
4.0 reflejo)
2.0
0.0 y = -0.0451x + 11.615
R² = 0.0573
0 20 40 60 80 100 120
Sobrepeso
X
Y
(% de Hidro
(Pureza)
carburos)
0,99 90,01
1,02 89,05
1,15 91,43
1,29 93,74
1,46 96,73
1,36 94,45
0,87 87,59
1,23 91,77
1,55 99,42
1,4 93,65
1,19 93,54
1,15 92,52
0,98 90,56
1,01 89,54
1,11 89,85
1,2 90,39
1,26 93,25
1,32 93,41
1,43 94,98
0,95 87,33
Y = 14,947x + 74,283
X-Y. En un nuevo proceso artesanal de fabricación de cierto artículo que está implantado,
se ha considerado que era importante ir anotando periódicamente el tiempo medio (medido
en minutos) que se utiliza para realizar una pieza y el número de días desde que empezó
dicho proceso de fabricación. Con ello, se pretende analizar como los operarios van
adaptándose al nuevo proceso mejorando paulatinamente su proceso de producción.
X 12 23 35 42 53 65 70
Y 45 30 27 25 23 21 20
Y = 0,3566x + 42,569
R2 = 0,7963
R√ = 0,39815 No hay correlación entre las dos variables porque por más días trabajados el
tiempo disminuye porque las personas aprenden a fabricar más rápido.
a. Ajuste un modelo matemático que permita predecir el efecto de una variable sobre la
otra. ¿Es confiable?
Y = 0,00663x + 217,05
R2 = 0,0007
R√= 0,00035
El modelo matemático que permite determinar si la variable es confiable es : Y=a+bX
*ANALISIS DEL ESTUDIANTE: HERNAN FELIPE LOZANO
2.1 SAL-TENCION
X(sal) Y (Tensión)
N°
1 1,6 98
2 2,3 102
3 3,3 109
4 4,2 113
5 4,6 115
6 5 120
140
120
100
Tension
80
60
40
20
0
0 1 2 3 4 5 6
y = 6.1062x + 88.128 Sal
R² = 0.987
A-) grado de Relación directa y fuerte entre coeficientes, Correlación positiva porque la
tensión arterial sube cuando el consumo de sal es alto
B-) El modelo matemático que permite predecir el efecto de una variable sobre otra es:
Y=a+bX;
y=6.313X + 85.61 R²=0.916
Se diagnostica que la ecuación de la recta es confiable porque R2 está cercano a 1 y tiene
un alto grado de confiabilidad
C-) El coeficiente de correlación lineal es excelente debido a que el 0.916 está muy cerca al
extremo de 1 positivo y es correlación perfecta positiva
D-) Y= (6.313*5.6)+85.61 = 120.96
Según lo anterior para dicha dosis de sal, la tensión que se debe tener es de 120.96
EJERCICIO 2
1.5 TEM-VAPOR
TEMPERATURA CONSUMO VAPOR
MES (F) (LB)
ENERO 21 185,79
FEBRERO 24 214,47
MARZO 32 288,03
ABRIL 47 424,84
MAYO 50 455
JUNIO 59 539
JULIO 68 621,55
AGOSTO 74 675,06
SEPTIEMBRE 62 562,03
OCTUBRE 50 452,93
NOVIEMBRE 41 369,95
DICIEMBRE 30 273,98
800
700
CONSUMO DE VAPOR
600
500
400
300
200
100
0
0 10 20 30 40 50 60 70 80
y = 9.2087x - 6.3184 TEMPERATURA
R² = 0.9999
F(x) = 9.21X -6.32
R²=1
A-)Tendencia positiva, porque hay una relación directa entre la temperatura y el consumo
de vapor, teniendo en cuenta que el número de libras de vapor consumidas mes a mes se
relaciona con la temperatura medida en °F su correlación es excelente con un 0.99% la
R²=99.99 lo que significa que tiene un alto grado de confiabilidad
B-) Y=9.208x-6.318 R²=0.99
R²= coeficiente determinación es 99.99% lo que es totalmente confiable
C-) R= coeficiente de correlación, R= √0.99
El coeficiente de correlación lineal es excelente debido a que el 0.99 está muy cerca al
extremo de 1 positivo y es correlación perfecta positiva
D-) Y=9.208(70)+6.318 = 650.87
Cuando la temperatura es igual a 70 °F el consumo de vapor es 650.87%
EJERCICIO 3
1.7 PIB-VENTAS
PIB
AÑO (NACION) VENTAS
2001 1,7 339,43
2002 2,5 363,02
2003 3,9 359,7
2004 5,3 336,9
2005 4,7 339,38
2006 6,7 348,4
2007 6,9 372
2008 3,5 358,79
2009 1,7 337,94
2010 4 357,32
2011 6,6 342,14
2012 4 327,84
2013 4,9 362,06
2014 4,4 348,8
2015 3,1 353,52
2016 2 355,4
2017 1,8 342
375
370
365
360
355
VENTAS
350
345
340
335
330
325
0 1 2 3 4 5 6 7 8
PIB y = 1.151x + 345.1
R² = 0.0288
A-) Tendencia positiva, porque hay una relación directa entre ventas y el PIB, teniendo en
cuenta que el número de ventas realizadas se relaciona con el PIB su correlación es mala
con un 2.88% la R²=2.88 lo que significa que tiene un bajo grado de confiabilidad
B-) Y=1.151x-345.1 R²=0.0288
R²= coeficiente determinación es 2.88% lo no es totalmente confiable
C-) R= coeficiente de correlación, R= √0.99
El coeficiente de correlación lineal es baja debido a que el 0.0288 está muy alejado al
extremo de 1 positivo y es correlación baja positiva
D-) Y=1.151(3.1)-345.1
Cuando la el PIB es 3.1 las ventas que se realizaron es de 341.53
Altura
Nº Peso (Kg)
(cm)
1 61 150
2 63 143
3 60 146
4 74 160
5 58 143
6 63 145
7 64 149
8 74 158
9 74 150
10 66 150
11 63 153
12 61 151
13 64 151
14 69 147
15 64 142
16 77 164
17 76 162
18 80 163
19 79 152
20 68 144
50
40
30
20
10
0
140 145 150 155 160 165 170
ALTURA
b) Encuentre el modelo matemático que permite predecir el efecto de una variable sobre la
otra. ¿Es confiable?
𝑦 = 0,7938𝑥 − 52,382
Hallar Y
y = 0,7938𝑥 − 52,382
X= 172
Y= ?
𝑌 = 0,7938𝑥 − 52,382
𝑌 = 0,7938 𝑥 172
𝑌 = 136,5336 − 52,382
𝑌 = 84,15
1.6. Estatura-Peso. Una Nutricionista de un hogar infantil desea encontrar un modelo
matemático que permita determinar la relación entre el peso y la estatura de sus estudiantes.
Para ello selecciona 10 niños y realiza las mediciones respectivas.
Estatura 120 124 107 118 112 110 115 104 110 116
(cm)
Peso (kg) 24 23 19 24 21 19 22 16 20 23
X Estatura
Y Peso (kg)
(cm)
120 24
124 23
107 19
118 24
112 21
110 19
115 22
104 16
110 20
116 23
y = 0,386x - 22,751
R² = 0,8329
d. ¿Cuál es el peso que debería tener un estudiante que mida 128 cm?
𝑋 = 128
𝑌 =?
𝑌 = 0,386𝑥 − 22,751
𝑌 = 0,386 𝑥 128
𝑌 = 49,408 − 22,751
𝑌 = 26,657
1.8. %-Umbral. Los investigadores están estudiando la correlación entre la obesidad y la
respuesta individual al dolor. La obesidad se mide como porcentaje sobre el peso ideal (x).
La respuesta al dolor se mide utilizando el umbral de reflejo de reflexión nociceptiva (y)
que es una medida de sensación de punzada. Obsérvese que ambas, X e Y, son variables
aleatorias
y (umbral de reflejo de
% Sobrepeso. X
flexión nociceptiva) Y
89 2,00
90 3,00
75 4,00
30 4,50
51 5,50
75 7,00
62 9,00
45 13,00
90 15,00
20 14,00
1. Realice el diagrama de dispersión y determine el tipo de asociación entre las
variables.
2. Ajuste un modelo matemático que permita predecir el efecto de una variable sobre
la otra. ¿Es confiable?
𝑦 = −0,0629𝑥 + 11,642
𝑅² = 0,1115
Confiabilidad del 11,15% no es confiable
𝑋 = 40
𝑌?
𝑌 = −0,0629𝑥 + 11,642
𝑌 = −0,0629𝑥40
𝑌 = −2,516 + 11,642
𝑌 = 9,12
Conclusiones
Se pudo evidenciar que para manejar cualquier tipo de variables se necesita realizar
un diagrama de dispersión y aplicar conceptos, fórmulas de relación y correlación
que permita el despeje de las ecuaciones y datos para obtener un resultado.
Los ejemplos nos muestran que son acordes a un tipo de forma lineal y la
correlación es confiable para los tipos de datos.
https://es.wikipedia.org/wiki/Diagrama_de_dispersi%C3%B3n
https://es.wikipedia.org/wiki/Correlaci%C3%B3n
https://economipedia.com/definiciones/r-cuadrado-coeficiente-determinacion.html
https://www.uv.es/ceaces/base/descriptiva/coefcorre.htm
https://economipedia.com/definiciones/coeficiente-de-correlacion-lineal.html