Вы находитесь на странице: 1из 37

Paso 4 - Descripción de la Información

PARTICIPANTES:
STEPHANY ANGEL GOMEZ
DAYANNA PATRICIA UMAÑA
DIEGO FERNANDO CASTILLO
HERNAN FELIPE LOZANO

GRUPO: 100105_261

PRESENTADO A:
EDWARD FERNANDO TORO

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA


ESTADÍSTICA DESCRIPTIVA
26 NOVIEMBRE 2018
INTRODUCCIÓN

Las estadísticas bivariantes permiten el análisis conjunto de dos características de los


individuos de una población con el propósito de detectar posibles relaciones entre
ellas. Durante el desarrollo de este trabajo podremos estudiar y analizar diagramas de
dispersión, al igual que ver la correlación entre las variables con sus conclusiones.
JUSTIFICACIÓN

La estadística es una disciplina aplicada en todos los campos de la vida humana, de ahí que
se tiene como una materia indispensable en todas las áreas y carreras del conocimiento de
nivel profesional. La importancia de este trabajo es aprender sobre la estadísticas
bivariantes a realizar diagramas de dispersión, regresión y correlación entre las variables.
OBJETIVOS

Objetivo General

 Comprender los conceptos de estadísticas bivariantes. Para detallar y relacionar


variables utilizando medidas bivariantes para poder desarrollar los diferentes
ejercicios plasmados en este taller

Objetivos Específicos

 Desarrollar los laboratorios respectivos de cada estudiante


 Analizar los contenidos de esta unidad
 Aplicar los conceptos adquiridos de esta unidad
Los conceptos básicos asociados a Regresión y Correlación

*CONCEPTOS DE LA ESTUDIANTE: DAYANNA PATRICIA UMAÑA

Diagrama de dispersión
Los diagramas de dispersión usan una colección de puntos colocados usando coordenadas
cartesianas para mostrar valores de dos variables. Al mostrar una variable en cada eje, se
puede detectar si existe una relación o correlación entre las dos variables.
Se pueden interpretar varios tipos de correlación a través de los patrones mostrados en los
diagramas de dispersión. Estos son: positivo, los valores aumentan juntos, negativo, un
valor disminuye a medida que el otro aumenta, nulo, sin correlación, lineal, exponencial y
en forma de U. La fuerza de la correlación puede determinarse por la proximidad de los
puntos entre sí en el gráfico. Los puntos que terminan muy lejos del conjunto general de
puntos se conocen como valores atípicos.
Si la tendencia general es que los puntos suban a la derecha de la gráfica, entonces se dice
que hay una correlación positiva entre las dos variables medidas. Si los puntos caen a la
izquierda de la gráfica, se dice que hay una correlación negativa. Si no hay tendencia
general, entonces no hay correlación. Si la tendencia no es muy pronunciada, es decir, los
puntos están dispersos ampliamente entonces se dice que las variables están débilmente
correlacionadas. Si la correlación es más pronunciada, se dice que las variables están
fuertemente correlacionadas.
Las líneas o curvas se ajustan dentro del gráfico para ayudar en el análisis y se dibujan tan
cerca de todos los puntos como sea posible para mostrar cómo se condensaron todos los
puntos en una sola línea. Esto se conoce normalmente como línea de mejor ajuste o línea de
tendencias esta se puede utilizar para hacer estimaciones mediante interpolación.

Correlación lineal simple


La finalidad de la correlación es examinar la dirección y la fuerza de la asociación entre dos
variables cuantitativas. Así se conoce la intensidad de la relación entre ellas y si, al
aumentar el valor de una variable, aumenta o disminuye el valor de la otra variable. No toda
relación entre dos variables es lineal, algunas se representan con mejor exactitud usando
una curva, en dicho caso se dice que la relación entre variables es curvilínea.
Si entre dos variables cuantitativas existe una relación lineal, el análisis de correlación
lineal simple se usa para determinar la dirección y magnitud de dicha relación.
La dirección de la relación se refiere a si esta es positiva o negativa. La magnitud de la
relación o grado de relación entre las variables se refiere a la fuerza de la relación que
existe entre las variables. Se trata de expresar cuantitativamente el grado de relación que
existe entre las variables en estudio.
Para analizar la relación lineal existente entre dos variables continuas es necesario disponer
de parámetros que permitan cuantificar dicha relación. Uno de estos parámetros es la
covarianza, que indica el grado de variación conjunta de dos variables aleatorias.

Coeficiente de determinación 𝑹𝟐
Es una medida estadística de la bondad del ajuste o fiabilidad del modelo estimado a los
datos. Se representa por R2 e indica cuál es la proporción de la variación total en la variable
dependiente (Y), que es explicada por el modelo de regresión estimado, es decir, mide la
capacidad explicativa del modelo estimado.
Si dos variables no covarían, no se puede hacer predicciones válidas, y si la intensidad de la
covariación es moderada, las predicciones no serán demasiado buenas. En consecuencia,
hay que disponer de alguna medida de la capacidad de la ecuación de Regresión para
obtener predicciones buenas (en el sentido de que sean lo menos erróneas posible).
El coeficiente de determinación no sólo mide la capacidad explicativa de un modelo, sino
que, además, permite elegir entre varios modelos cuál es el más adecuado. Así si los
modelos tienen la misma variable dependiente y el mismo número de variables
explicativas, será más adecuado el que tenga un coeficiente de determinación mayor. Sin
embargo, si se trabaja con modelos anidados (uno tiene el mismo número de variables
explicativas que otro y alguna más), entonces el coeficiente de determinación ya no es
adecuado para establecer cuál de los modelos es el mejor para explicar la variable
dependiente. Esto es debido a que al aumentar el número de variables explicativas entonces
la suma residual disminuye y, por lo tanto, será necesario trabajar con una medida que
tenga en cuenta el número de variables explicativas del modelo, este coeficiente se conoce
como el coeficiente de determinación corregido ( ̅𝑅̅̅̅2 )

 Cálculo del coeficiente de determinación


En un modelo de regresión lineal el coeficiente de determinación es adimensional y se
calcula de siguiente modo:
𝑆𝑢𝑚𝑎 𝑟𝑒𝑠𝑖𝑑𝑢𝑎𝑙
𝑅2 = 1 −
𝑆𝑢𝑚𝑎 𝑡𝑜𝑡𝑎𝑙
Donde la suma total es la varianza muestral de la variable endógena multiplicada por el
tamaño de la muestra; por lo tanto, mide las fluctuaciones de esta variable alrededor de su
media; y, la suma residual indica cuál es el nivel de error que se comete con el modelo
estimado al explicar la variable endógena.
El coeficiente de determinación siempre va a ser menor o igual que 1 (sería igual a 1 si el
modelo estimado puede explicar completamente la variable dependiente sin ningún error, lo
cual es muy improbable en la práctica) y si, además, el modelo tiene término independiente,
entonces el R2 es mayor o igual que cero.
Correlación positiva
Se habla de una correlación positiva cuando una relación entre una variable y otra es lineal
y directa, de manera que un cambio en una variable predice el cambio en la otra variable.
En ese caso, se dice que la correlación es positiva perfecta, es decir, ambas variables varían
al mismo tiempo. Este tipo de correlación es directamente proporcional. Hay correlación
positiva cuando las dos variables se correlacionan en sentido directo. Por lo que, a valores
altos de una le corresponden valores altos de la otra e igualmente con los valores bajos.

Imagen tomada de https://diferencias.eu/entre-correlacion-positiva-y-correlacion-negativa/

Correlación negativa
Se habla de una correlación negativa cuando la relación entre una variable y otra es opuesta
o inversa, es decir, cuando una variable cambia, la otra se modifica hacia lo contrario.
Entonces, cuando una posee variable valores altos, la otra posee valores bajos y mientras
este valor esté más cerca de -1, más evidente será esta covariación.
Se dice que hay correlación negativa perfecta cuando r = -1. Este tipo de correlación es
inversamente proporcional. Entonces, hay correlación negativa cuando las dos variables se
correlacionan en sentido inverso.

Imagen tomada de https://diferencias.eu/entre-correlacion-positiva-y-correlacion-negativa/

Coeficiente de correlación lineal


Es una medida estadística que cuantifica la dependencia lineal entre dos variables, es decir,
si se representan en un diagrama de dispersión los valores que toman dos variables, el
coeficiente de correlación lineal señalará lo bien o lo mal que el conjunto de puntos
representados se aproxima a una recta, es decir, se define como el número que mide el
grado de intensidad y el sentido de la relación entre dos variables.

Imagen tomada de https://economipedia.com/definiciones/coeficiente-de-correlacion-


lineal.html
Siendo:

 Cov (x;y): la covarianza entre el valor “x” e “y”.


 σ(x): desviación típica de “x”.
 σ(y): desviación típica de “y”.
Según la formula anterior, los valores que puede tomar la correlación son los siguientes:

 ρ = -1 Correlación perfecta negativa


 ρ=0 No existe correlación
 ρ = +1 Correlación perfecta positiva

*CONCEPTOS DE LA ESTUDIANTE: STEPHANY ANGEL GOMEZ

Diagrama de dispersión:
Un diagrama de dispersión o gráfica de dispersión o gráfico de dispersión es un tipo de
diagrama matemático que utiliza las coordenadas cartesianas para mostrar los valores de
dos variables para un conjunto de datos.
Se emplea cuando una o varias variables está bajo el control del experimentador. Si existe
un parámetro que se incrementa o disminuye de forma sistemática por el experimentador,
se le denomina parámetro de control o variable independiente y habitualmente se representa
a lo largo del eje horizontal (eje de las abscisas). La variable medida o dependiente
usualmente se representa a lo largo del eje vertical (eje de las ordenadas). Si no existe una
variable dependiente, cualquier variable se puede representar en cada eje y el diagrama de
dispersión mostrará el grado de correlación (no causalidad) entre las dos variables.
Un diagrama de dispersión puede sugerir varios tipos de correlaciones entre las variables
con un intervalo de confianza determinado. La correlación puede ser positiva (aumento),
negativa (descenso), o nula (las variables no están correlacionadas). Se puede dibujar una
línea de ajuste (llamada también "línea de tendencia") con el fin de estudiar la correlación
entre las variables. Una ecuación para la correlación entre las variables puede ser
determinada por procedimientos de ajuste. Para una correlación lineal, el procedimiento de
ajuste es conocido como regresión lineal y garantiza una solución correcta en un tiempo
finito.
Uno de los aspectos más poderosos de un gráfico de dispersión, sin embargo, es su
capacidad para mostrar las relaciones no lineales entre las variables. Además, si los datos
son representados por un modelo de mezcla de relaciones simples, estas relaciones son
visualmente evidentes como patrones superpuestos.

Ejemplo de un diagrama de dispersión:

Correlación lineal simple:


La correlación lineal y la regresión lineal simple son métodos estadísticos que estudian la
relación lineal existente entre dos variables. La correlación cuantifica como de
relacionadas están dos variables, mientras que la regresión lineal consiste en generar una
ecuación (modelo) que, basándose en la relación existente entre ambas variables, permita
predecir el valor de una a partir de la otra.
Para estudiar la relación lineal existente entre dos variables continuas es necesario
disponer de parámetros que permitan cuantificar dicha relación. Uno de estos parámetros
es la covarianza, que indica el grado de variación conjunta de dos variables aleatorias.

 Todos ellos varían entre +1 y -1. Siendo +1 una correlación positiva perfecta y -1
una correlación negativa perfecta.
 Se emplean como medida de fuerza de asociación (tamaño del efecto):
o 0: asociación nula.
o 0.1: asociación pequeña.
o 0.3: asociación mediana.
o 0.5: asociación moderada.
o 0.7: asociación alta.
o 0.9: asociación muy alta.
Coeficiente de determinación R2:
El R Cuadrado se define como la proporción de la varianza total de la variable
explicada por la regresión. El R Cuadrado, también llamado coeficiente de
determinación, refleja la bondad del ajuste de un modelo a la variable que pretender
explicar.
El R Cuadrado ajustado es la medida que define el porcentaje explicado por la varianza de
la regresión en relación con la varianza de la variable explicada. Es decir, lo mismo que el
R Cuadrado, pero con una diferencia. Esa diferencia se encuentra en que el R Cuadrado
ajustado penaliza la inclusión de variables.
Cómo hemos dicho anteriormente el R Cuadrado de un modelo aumenta aunque las
variables que incluyamos no sean relevantes. Ya que esto supone un problema, para
intentar solventarlo el R Cuadrado ajustado queda tal que:

Donde N es el tamaño de la muestra y k el número de variables explicativas. Por deducción


matemática, a valores más altos de k, más alejado estará el R Cuadrado ajustado del R
Cuadrado normal. Al revés a valores más bajos de k, más cerca estará de 1 la fracción
central y, por tanto, más parecidos serán el R Cuadrado ajustado y el R Cuadrado normal.
Recordando que k es el número de variables explicativas, deducimos que éste no puede ser
cero. Si fuese cero, no existiría modelo. Como mínimo tendremos que explicar una variable
en función de otra variable. Dado que k debe ser como mínimo 1, el R Cuadrado ajustado y
el R Cuadrado normal no pueden tener el mismo valor. Es más, el R Cuadrado ajustado será
siempre inferior al R Cuadrado normal.

Correlación positiva y correlación negativa:


**Si r < 0 Hay correlación negativa : las dos variables se correlacionan en sentido
inverso.A valores altos de una de ellas le suelen corresponder valor bajos de la otra y
viceversa.Cuánto más próximo a -1 esté el coeficiente de correlación más patente será esta
covariación extrema.Si r= -1 hablaremos de correlación negativa perfecta lo que supone
una determinación absoluta entre las dos variables ( en sentido inverso): Existe una relación
funcional perfecta entre ambas(una relación lineal de pendiente negativa).
** Si r > 0 Hay correlación positiva: las dos variables se correlacionan en sentido
directo.A valores altos de una le corresponden valores altos de la otra e igualmente con los
valores bajos.Cuánto más próximo a +1 esté el coeficiente de correlación más patente será
esta covariación.Si r = 1 hablaremos de correlación positiva perfecta lo que supone una
determinación absoluta entre las dos variables (en sentido directo):Existe una relación
lineal perfecta ( con pendiente positiva).
¿Qué es el coeficiente de correlación lineal y qué nos ayuda a medir?
En estadística, el coeficiente de correlación de Pearson es una medida lineal entre
dos variables aleatorias cuantitativas. A diferencia de la covarianza, la correlación
de Pearson es independiente de la escala de medida de las variables.
De manera menos formal, podemos definir el coeficiente de correlación de Pearson como
un índice que puede utilizarse para medir el grado de relación de dos variables siempre y
cuando ambas sean cuantitativas y continuas.
Nos ayuda a medir la dependencia lineal entre dos variables, es decir, si se representan en
un diagrama de dispersión los valores que toman dos variables, el coeficiente de correlación
lineal señalará lo bien o lo mal que el conjunto de puntos representados se aproxima a una
recta.

La podemos definir como el número que mide el grado de intensidad y el sentido de la


relación entre dos variables.

*CONCEPTOS DEL ESTUDIANTE: DIEGO FERNANDO CASTILLO

Diagrama de dispersión

El diagrama de dispersión permite estudiar las relaciones entre dos conjuntos asociados de
datos que aparecen en pares (por ejemplo, (x,y), uno de cada conjunto). El diagrama
muestra estos pares como una nube de puntos.
Las relaciones entre los conjuntos asociados de datos se infieren a partir de la forma de las
nubes.

 Una relación positiva entre x y y significa que los valores crecientes de x están asociados
con los valores crecientes de y.
 Una relación negativa significa que los valores crecientes de x están asociados con los
valores decrecientes de y.

¿Para qué se usa un diagrama de dispersión?

Entre sus usos está descubrir y mostrar las relaciones entre dos conjuntos asociados de
datos y confirmar relaciones anticipadas entre dos conjuntos asociados de datos.
El diagrama de dispersión puede estudiar la relación entre:
 Dos factores o causas relacionadas con la calidad.
 Dos problemas de calidad.
 Un problema de calidad y su posible causa.
Correlación lineal simple

La correlación, también conocida como coeficiente de correlación lineal (de Pearson), es


una medida de regresión que pretende cuantificar el grado de variación conjunta entre dos
variables.
Por tanto, es una medida estadística que cuantifica la dependencia lineal entre dos
variables, es decir, si se representan en un diagrama de dispersión los valores que toman
dos variables, el coeficiente de correlación lineal señalará lo bien o lo mal que el conjunto
de puntos representados se aproxima a una recta.
De una forma menos coloquial, la podemos definir como el número que mide el grado de
intensidad y el sentido de la relación entre dos variables.

Siendo:
Cov (x;y): la covarianza entre el valor “x” e “y”.
σ(x): desviación típica de “x”.
σ(y): desviación típica de “y”.

Coeficiente de determinación R2

El R Cuadrado se define como la proporción de la varianza total de la variable explicada


por la regresión. El R Cuadrado, también llamado coeficiente de determinación, refleja la
bondad del ajuste de un modelo a la variable que pretender explicar.
Es importante saber que el resultado del R Cuadrado oscila entre 0 y 1. Cuanto más cerca
de 1 se sitúe su valor, mayor será el ajuste del modelo a la variable que estamos intentando
explicar. De forma inversa, cuanto más cerca de cero, menos ajustado estará el modelo y,
por tanto, menos fiable será.

En la expresión anterior tenemos una fracción. Así pues, vayamos por partes. En primer
lugar, analizaremos el numerador, es decir, la parte de arriba.

Correlación positiva y correlación negativa

Correlación Positiva
Se habla de una correlación positiva cuando una relación entre una variable y otra es lineal
y directa, de manera que un cambio en una variable predice el cambio en la otra variable.
En ese caso, se dice que la correlación es positiva perfecta, es decir, ambas variables varían
al mismo tiempo. Este tipo de correlación es directamente proporcional. Hay correlación
positiva cuando las dos variables se correlacionan en sentido directo. Por lo que, a valores
altos de una le corresponden valores altos de la otra e igualmente con los valores bajos.

Correlación Negativa

Se habla de una correlación negativa cuando la relación entre una variable y otra es opuesta
o inversa, es decir, cuando una variable cambia, la otra se modifica hacia lo contrario.
Entonces, cuando una posee variable valores altos, la otra posee valores bajos y mientras
este valor esté más cerca de -1, más evidente será esta covariación.

Se dice que hay correlación negativa perfecta cuando r = -1. Este tipo de correlación es
inversamente proporcional. Entonces, hay correlación negativa cuando las dos variables se
correlacionan en sentido inverso.

Existen diferencias importantes entre correlación positiva y correlación negativa.

A continuación, se muestran algunas diferencias entre los tipos de correlación existentes:

Correlación Positiva Correlación Negativa


la correlación positiva la relación entre La correlación negativa la relación entre
variables es lineal y recta. variables es opuesta.
La correlación positiva el cambio de una La correlación negativa cuando una
variable predice el cambio de la otra. variable cambia, la otra lo hace de forma contraria.
La correlación positiva es directamente La correlación negativa es inversamente
proporcional. proporcional.

¿Qué es el coeficiente de correlación lineal y qué nos ayuda a medir?

El coeficiente de correlación de Pearson, pensado para variables cuantitativas (escala


mínima de intervalo), es un índice que mide el grado de covariación entre distintas
variables relacionadas linealmente. Adviértase que decimos "variables relacionadas
linealmente". Esto significa que puede haber variables fuertemente relacionadas, pero no de
forma lineal, en cuyo caso no proceder a aplicarse la correlación de Pearson. Por ejemplo,
la relación entre la ansiedad y el rendimiento tiene forma de U invertida; igualmente, si
relacionamos población y tiempo la relación será de forma exponencial. En estos casos (y
en otros muchos) no es conveniente utilizar la correlación de Pearson. Insistimos en este
punto, que parece olvidarse con cierta frecuencia. El coeficiente de correlación de Pearson
es un índice de fácil ejecución e, igualmente, de fácil interpretación. Digamos, en primera
instancia, que sus valores absolutos oscilan entre 0 y 1. Esto es, si tenemos dos variables X
e Y, y definimos el coeficiente de correlación de Pearson entre estas dos variables como
𝑟 𝑥𝑦 entonces:
0 ≤ 𝑟 𝑥𝑦 ≤ 1

* CONCEPTOS DEL ESTUDIANTE: HERNAN FELIPE LOZANO

Diagrama de dispersión
El diagrama de dispersión permite estudiar las relaciones entre dos conjuntos asociados de
datos que aparecen en pares (por ejemplo, (x,y), uno de cada conjunto). El diagrama
muestra estos pares como una nube de puntos. Las relaciones entre los conjuntos asociados
de datos se infieren a partir de la forma de las nubes. Una relación positiva entre x y y
significa que los valores crecientes de x están asociados con los valores crecientes de y.
Una relación negativa significa que los valores crecientes de x están asociados con los
valores decrecientes de y.
¿Para qué se usa un diagrama de dispersión?
Entre sus usos está descubrir y mostrar las relaciones entre dos conjuntos asociados de
datos y confirmar relaciones anticipadas entre dos conjuntos asociados de datos.
El diagrama de dispersión puede estudiar la relación entre:

 Dos factores o causas relacionadas con la calidad.


 Dos problemas de calidad.
 Un problema de calidad y su posible causa.

Correlación
La correlación no es más que cómo se relacionan ambas variables entre sí. En la tabla
siguiente te muestro algunos tipos de correlación
A continuación te muestro algunos ejemplos de estos tipos de correlación:

Línea de ajuste
La línea de ajuste se usa para hacer predicciones basándonos en datos pasados. Cuando se
dibuja la recta, debemos asegurarnos de que encaje con la mayor parte de los datos. Si hay
un punto que está muy por encima o muy por debajo con respecto al resto (puntos atípicos)
debemos dejarlo fuera de la recta.
Coeficiente de correlación de Pearson
En estadística, el coeficiente de correlación de Pearson es una medida de la relación lineal
entre dos variables aleatorias cuantitativas. A diferencia de la covarianza, la correlación de
Pearson es independiente de la escala de medida de las variables.
De manera menos formal, podemos definir el coeficiente de correlación de Pearson como
un índice que puede utilizarse para medir el grado de relación de dos variables siempre y
cuando ambas sean cuantitativas.
Análisis de correlación lineal simple de las dos variables cuantitativas seleccionadas

*REGRESION Y CORRELACION DE LA ESTUDIANTE: DAYANNA PATRICIA


UMAÑA

4. Regresión y Correlación lineal Simple


A partir de la base de datos suministrada, cada estudiante debe:
-Identificar dos variables cuantitativas de la situación estudiada que puedan estar
relacionadas.
Las variables cuantitativas elegidas son EDAD – PESO (Kg)
Edad Peso (kg)
0 16,1
1 24,3
2 20,8
3 42
4 33,2
5 75,6
7 23
8 19,7
13 30,5
16 90,9
17 233
18 53,8
19 336,7
20 178,8
21 189,2
22 121,9
23 425,5
24 301,6
25 200,6
26 265,8
31 132
33 146,7
34 132,9
35 78,9
36 72,9
37 153
39 243,9
40 136,3
42 45,8
43 85
44 163,5
45 55
47 58,2
48 146
49 65,9
50 62,3
51 172,5
52 111,5
53 78,6
54 273,9
55 222,5
56 67,2
57 60,5
58 78,6
59 128,6
60 67,5
61 58,3
62 72,5
64 58
65 57,6
68 135,8
71 62,7
73 115,2
75 116,7
81 65,2
82 70
85 50,2
87 62,9
94 70,2

- Realizar el diagrama de dispersión de dichas variables y determinar el tipo de asociación


entre las variables.
Diagrama de dispersion
450 y = -0.3387x + 127.93
400 R² = 0.0094
350
300
Peso (Kg)

250
200 Peso
150
Linear (Peso)
100
50
0
0 10 20 30 40 50 60 70 80 90 100
Edad

No existe correlacipon entre las variables


- Encontrar el modelo matemático que permite predecir el efecto de una variable sobre la
otra. ¿Es confiable?
El modelo matemático es Y = a + bX
y = -0,3387x + 127,93
R² = 0,0094
El modelo es 0.94% confiable
- Determinar el porcentaje de explicación del modelo y el grado de relación de las dos
variables.
√0,0094 = 0,096953597 Grado de relación
- Relacionar la información obtenida con el problema.
Para concluir se puede determinar que no hay relación directa entre el peso de una persona
y su edad, ya que su peso puede variar según la edad que se tenga o por otros factores como
su alimentación o cultura
Análisis y conclusiones, a partir de los resultados obtenidos y aplicados al problema o
situación estudiada.

*ANALISIS DE LA ESTUDIANTE: DAYANNA PATRICIA UMAÑA

Ejercicios
1.1. Sal-Tensión
Y
X (SAL) (TENSION)
1,6 98
2,3 102
3,3 109
4,2 113
4,6 115
5,0 120

a. Realice el diagrama de dispersión y determine el tipo de asociación entre las


variables
140

120

100

80
Tensión

60

40

20

0
0 1 2 3 4 5 6
Sal

El grafico es de tipo correlación positiva

b. Encuentre el modelo matemático que permite predecir el efecto de una variable


sobre la otra. ¿Es confiable?
El modelo matemático es Y = a + bX.
y = 6,1062x + 88,128 R² = 0,987
El modelo es confiable porque R² tiene una valor muy cercano a 1.
c. Determine el grado de relación de las dos variables.
√0.987 = 0,993478737 Grado de relación

d. Si a un paciente se le administra una dosis de sal de 5,6. ¿Cuál es la tensión


arterial esperada?
Y = (6,1062 * 5,6) + 88,128 = 122,32272 Valor de Tensión

1.4. X-Y.
En un nuevo proceso artesanal de fabricación de cierto artículo que está implantado, se ha
considerado que era importante ir anotando periódicamente el tiempo medio (medido en
minutos) que se utiliza para realizar una pieza y el número de días desde que empezó dicho
proceso de fabricación. Con ello, se pretende analizar como los operarios van adaptándose
al nuevo proceso mejorando paulatinamente su proceso de producción.
Los siguientes datos representan dicha situación:
x 12 23 35 42 53 65 70
y 45 30 27 25 23 21 20
a. Identifique la variable dependiente (y) y la variable independiente (x),realice el diagrama
de dispersión y determine el tipo de asociación entre las variables

Diagrama de dispersión
50 y = -0.3566x + 42.569
45 R² = 0.7963
40
35
30
Y (Dias)

25
y
20
15 Linear (y)
10
5
0
0 20 40 60 80
X (Minutos)

Variable independiente: X (Minutos)


Variable dependiente: Y (Dias)
El grafico es de tipo correlación negativa
b. Encuentre el modelo matemático que permite predecir el efecto de una variable sobre la
otra. ¿Es confiable?
El modelo matemático es Y = a + bX
y = -0,3566x + 42,569
R² = 0,7963
El modelo es confiable en un 79.63%

c. Determine el grado de correlación de las dos variables.


√0.7963 = 0,892356431 Grado de relación

d. ¿Qué tiempo deberá tardarse un empleado cuando lleven 90 días?


y = (6,1062 * 90) + 88,128 = 10,475 Minutos

1.9. Sobrepeso-R.
Los investigadores están estudiando la correlación entre la obesidad y la respuesta
individual al dolor. La obesidad se mide como porcentaje sobre el peso ideal (x). La
respuesta al dolor se mide utilizando el umbral de reflejo de reflexión nociceptiva (y) que
es una medida de sensación de punzada. Obsérvese que ambas, X e Y, son variables
aleatorias
%
Sobrepeso Umbral de reflejo
99 2,0
90 3,0
20 4,0
75 9,5
30 11,5
62 9,0
75 9,0
90 12,5
45 8,0
50 19,0
a. Realice el diagrama de dispersión y determine el tipo de asociación entre las variables.
Diagrama de dispersión
20.0
18.0
16.0
Umbral de reflejo

14.0
12.0
10.0 Umbral de reflejo
8.0
6.0 Linear (Umbral de
4.0 reflejo)
2.0
0.0 y = -0.0451x + 11.615
R² = 0.0573
0 20 40 60 80 100 120
Sobrepeso

No existe ningún tipo de asociación entre las variables


b. Ajuste un modelo matemático que permita predecir el efecto de una variable sobre la
otra. ¿Es confiable?
El modelo matemático es Y = a + bX
y = -0,0451x + 11,615
R² = 0,0573
El modelo es 5,73 % confiable
c. Determine el porcentaje de explicación del modelo y el grado de relación de las dos
variables.
√0,0573 = 0,239374184 Grado de relación
d. ¿Cuál es el umbral de reflejo de flexión nociceptiva, cuando hay un porcentaje de
sobrepeso, de 34?

y = (-0,0451+ 34) + 11,615 = 10,0816 Umbral de reflejo


*ANALISIS DE LA ESTUDIANTE: STEPHANY ANGEL GOMEZ

CH-Pureza. El rendimiento del producto de un proceso químico está relacionado con la


temperatura de operación del proceso. Se desea establecer la relación que existe entre la
pureza (y) del oxígeno producido y el porcentaje de hidrocarburo (x) que está presente en el
condensador principal en un proceso de destilación, de acuerdo con los siguientes datos:

X
Y
(% de Hidro
(Pureza)
carburos)

0,99 90,01
1,02 89,05
1,15 91,43
1,29 93,74
1,46 96,73
1,36 94,45
0,87 87,59
1,23 91,77
1,55 99,42
1,4 93,65
1,19 93,54
1,15 92,52
0,98 90,56
1,01 89,54
1,11 89,85
1,2 90,39
1,26 93,25
1,32 93,41
1,43 94,98
0,95 87,33
Y = 14,947x + 74,283

R√= 0.4387 No hay correlación entre las dos variables

X-Y. En un nuevo proceso artesanal de fabricación de cierto artículo que está implantado,
se ha considerado que era importante ir anotando periódicamente el tiempo medio (medido
en minutos) que se utiliza para realizar una pieza y el número de días desde que empezó
dicho proceso de fabricación. Con ello, se pretende analizar como los operarios van
adaptándose al nuevo proceso mejorando paulatinamente su proceso de producción.

Los siguientes datos representan dicha situación:

X 12 23 35 42 53 65 70

Y 45 30 27 25 23 21 20

a. Identifique la variable dependiente (y) y la variable independiente (x),realice el diagrama


de dispersión y determine el tipo de asociación entre las variables.
b. Encuentre el modelo matemático que permite predecir el efecto de una variable sobre la
otra. ¿Es confiable?

Y = 0,3566x + 42,569

R2 = 0,7963

c. Determine el grado de correlación de las dos variables.

R√ = 0,39815 No hay correlación entre las dos variables porque por más días trabajados el
tiempo disminuye porque las personas aprenden a fabricar más rápido.

Correlación Inversa, el R va a ser negativo

1.1. PIB-Ventas. Una compañía multinacional del servicio de telecomunicaciones en


Colombia, como medio de planeación estratégica para la toma de decisiones,
solicita a su departamento financiero, hacer predicciones económicas del valor
anual de sus ventas totales, versus el PIB nacional de las últimas dos décadas, para
la toma de decisiones para la apertura de nuevos mercados. Realice el diagrama de
dispersión y determine el tipo de asociación entre las variables.

Año PIB Nación Ventas de la compañía


2001 1,70 339,43
2002 2,50 363,02
2003 3,90 359,75
2004 5,30 336,90
2005 4,70 339,38
2006 6,70 348,40
2007 6,90 372,00
2008 3,50 358,79
2009 1,70 337,94
2010 4,00 357,32
2011 6,60 342,14
2012 4,00 327,84
2013 4,90 362,06
2014 4,40 348,80
2015 3,10 353,52
2016 2,00 355,40
2017 1,80 342,00

a. Ajuste un modelo matemático que permita predecir el efecto de una variable sobre la
otra. ¿Es confiable?
Y = 0,00663x + 217,05
R2 = 0,0007
R√= 0,00035
El modelo matemático que permite determinar si la variable es confiable es : Y=a+bX
*ANALISIS DEL ESTUDIANTE: HERNAN FELIPE LOZANO

2.1 SAL-TENCION

X(sal) Y (Tensión)

1 1,6 98
2 2,3 102
3 3,3 109
4 4,2 113
5 4,6 115
6 5 120

140

120

100
Tension

80

60

40

20

0
0 1 2 3 4 5 6
y = 6.1062x + 88.128 Sal
R² = 0.987

A-) grado de Relación directa y fuerte entre coeficientes, Correlación positiva porque la
tensión arterial sube cuando el consumo de sal es alto
B-) El modelo matemático que permite predecir el efecto de una variable sobre otra es:
Y=a+bX;
y=6.313X + 85.61 R²=0.916
Se diagnostica que la ecuación de la recta es confiable porque R2 está cercano a 1 y tiene
un alto grado de confiabilidad
C-) El coeficiente de correlación lineal es excelente debido a que el 0.916 está muy cerca al
extremo de 1 positivo y es correlación perfecta positiva
D-) Y= (6.313*5.6)+85.61 = 120.96
Según lo anterior para dicha dosis de sal, la tensión que se debe tener es de 120.96

EJERCICIO 2
1.5 TEM-VAPOR
TEMPERATURA CONSUMO VAPOR
MES (F) (LB)
ENERO 21 185,79
FEBRERO 24 214,47
MARZO 32 288,03
ABRIL 47 424,84
MAYO 50 455
JUNIO 59 539
JULIO 68 621,55
AGOSTO 74 675,06
SEPTIEMBRE 62 562,03
OCTUBRE 50 452,93
NOVIEMBRE 41 369,95
DICIEMBRE 30 273,98

800
700
CONSUMO DE VAPOR

600
500
400
300
200
100
0
0 10 20 30 40 50 60 70 80
y = 9.2087x - 6.3184 TEMPERATURA
R² = 0.9999
F(x) = 9.21X -6.32
R²=1
A-)Tendencia positiva, porque hay una relación directa entre la temperatura y el consumo
de vapor, teniendo en cuenta que el número de libras de vapor consumidas mes a mes se
relaciona con la temperatura medida en °F su correlación es excelente con un 0.99% la
R²=99.99 lo que significa que tiene un alto grado de confiabilidad
B-) Y=9.208x-6.318 R²=0.99
R²= coeficiente determinación es 99.99% lo que es totalmente confiable
C-) R= coeficiente de correlación, R= √0.99
El coeficiente de correlación lineal es excelente debido a que el 0.99 está muy cerca al
extremo de 1 positivo y es correlación perfecta positiva
D-) Y=9.208(70)+6.318 = 650.87
Cuando la temperatura es igual a 70 °F el consumo de vapor es 650.87%
EJERCICIO 3
1.7 PIB-VENTAS
PIB
AÑO (NACION) VENTAS
2001 1,7 339,43
2002 2,5 363,02
2003 3,9 359,7
2004 5,3 336,9
2005 4,7 339,38
2006 6,7 348,4
2007 6,9 372
2008 3,5 358,79
2009 1,7 337,94
2010 4 357,32
2011 6,6 342,14
2012 4 327,84
2013 4,9 362,06
2014 4,4 348,8
2015 3,1 353,52
2016 2 355,4
2017 1,8 342
375
370
365
360
355
VENTAS

350
345
340
335
330
325
0 1 2 3 4 5 6 7 8
PIB y = 1.151x + 345.1
R² = 0.0288
A-) Tendencia positiva, porque hay una relación directa entre ventas y el PIB, teniendo en
cuenta que el número de ventas realizadas se relaciona con el PIB su correlación es mala
con un 2.88% la R²=2.88 lo que significa que tiene un bajo grado de confiabilidad
B-) Y=1.151x-345.1 R²=0.0288
R²= coeficiente determinación es 2.88% lo no es totalmente confiable
C-) R= coeficiente de correlación, R= √0.99
El coeficiente de correlación lineal es baja debido a que el 0.0288 está muy alejado al
extremo de 1 positivo y es correlación baja positiva
D-) Y=1.151(3.1)-345.1
Cuando la el PIB es 3.1 las ventas que se realizaron es de 341.53

*ANALISIS DEL ESTUDIANTE: FERNANDO CASTILLO


1.3. Peso-Altura. Un colegio del distrito de Bogotá desea realizar un estudio de
crecimiento dentro de su población estudiantil, para lo que se ha construido desde una
muestra la siguiente de información del peso (en kg.) y la altura (en cm.) de 20 jóvenes:

Altura
Nº Peso (Kg)
(cm)
1 61 150
2 63 143
3 60 146
4 74 160
5 58 143
6 63 145
7 64 149
8 74 158
9 74 150
10 66 150
11 63 153
12 61 151
13 64 151
14 69 147
15 64 142
16 77 164
17 76 162
18 80 163
19 79 152
20 68 144

a) Realice el diagrama de dispersión y determine el tipo de asociación entre las variables.


ESTUDIO DE CRECIMIENTO COLEGIO
DISTRITAL EN BOGOTA y = 0.7938x - 52.382
R² = 0.5946
90
80
70
60
PESO

50
40
30
20
10
0
140 145 150 155 160 165 170
ALTURA

b) Encuentre el modelo matemático que permite predecir el efecto de una variable sobre la
otra. ¿Es confiable?

𝑦 = 0,7938𝑥 − 52,382

𝑅² = 0,5946 ∗ 100 = 59,46%

Confiabilidad del modelo = 59,46%

c) Determine el porcentaje de explicación del modelo y el grado de relación de las dos


variables.

SI existe relación entre las variables, porque el peso depende de la altura.

Coeficiente de determinación = 0,5946 ∗ 100 = 59,46% Mínima

Coeficiente de correlación =√0,5946 = 0,77 Regular

d) ¿Cuál es el peso esperado de un estudiante que mide 172 cm?

Hallar Y
y = 0,7938𝑥 − 52,382
X= 172
Y= ?
𝑌 = 0,7938𝑥 − 52,382
𝑌 = 0,7938 𝑥 172
𝑌 = 136,5336 − 52,382
𝑌 = 84,15
1.6. Estatura-Peso. Una Nutricionista de un hogar infantil desea encontrar un modelo
matemático que permita determinar la relación entre el peso y la estatura de sus estudiantes.
Para ello selecciona 10 niños y realiza las mediciones respectivas.

A continuación, se presentan los resultados:

Estatura 120 124 107 118 112 110 115 104 110 116
(cm)

Peso (kg) 24 23 19 24 21 19 22 16 20 23

A) Identifique la variable dependiente (y) y la variable independiente (x), realice el


diagrama de dispersión y determine el tipo de asociación entre las variables

X Estatura
Y Peso (kg)
(cm)
120 24
124 23
107 19
118 24
112 21
110 19
115 22
104 16
110 20
116 23

b. Encuentre el modelo matemático que permite predecir el efecto de una variable


sobre la otra. ¿Es confiable?

y = 0,386x - 22,751
R² = 0,8329

Confiabilidad del 83,29 % aceptable

Coeficiente de determinación = 0,8329 ∗ 100 = 83,29 % Aceptable


Coeficiente de correlación =√0,8329 = 0,91 Excelente

c. Determine el grado de correlación de las dos variables.

Coeficiente de correlación =√0,8329 = 0,91 Excelente

d. ¿Cuál es el peso que debería tener un estudiante que mida 128 cm?

𝑋 = 128
𝑌 =?
𝑌 = 0,386𝑥 − 22,751
𝑌 = 0,386 𝑥 128
𝑌 = 49,408 − 22,751
𝑌 = 26,657
1.8. %-Umbral. Los investigadores están estudiando la correlación entre la obesidad y la
respuesta individual al dolor. La obesidad se mide como porcentaje sobre el peso ideal (x).
La respuesta al dolor se mide utilizando el umbral de reflejo de reflexión nociceptiva (y)
que es una medida de sensación de punzada. Obsérvese que ambas, X e Y, son variables
aleatorias

y (umbral de reflejo de
% Sobrepeso. X
flexión nociceptiva) Y

89 2,00
90 3,00
75 4,00
30 4,50
51 5,50
75 7,00
62 9,00
45 13,00
90 15,00
20 14,00
1. Realice el diagrama de dispersión y determine el tipo de asociación entre las
variables.
2. Ajuste un modelo matemático que permita predecir el efecto de una variable sobre
la otra. ¿Es confiable?

𝑦 = −0,0629𝑥 + 11,642
𝑅² = 0,1115
Confiabilidad del 11,15% no es confiable

3. Determine el porcentaje de explicación del modelo y el grado de relación de las dos


variables.

Coeficiente de determinación = 0,1115 ∗ 100 = 11,15 % no hay correlacion

Coeficiente de correlación =√0,1115 = 0,33 mínima

4. ¿Cuál es el umbral de reflejo de flexión nociceptiva, cuando hay un porcentaje de


sobrepeso, de 40?

𝑋 = 40
𝑌?
𝑌 = −0,0629𝑥 + 11,642
𝑌 = −0,0629𝑥40
𝑌 = −2,516 + 11,642
𝑌 = 9,12
Conclusiones

 Se pudo evidenciar que para manejar cualquier tipo de variables se necesita realizar
un diagrama de dispersión y aplicar conceptos, fórmulas de relación y correlación
que permita el despeje de las ecuaciones y datos para obtener un resultado.

 Los ejemplos nos muestran que son acordes a un tipo de forma lineal y la
correlación es confiable para los tipos de datos.

 Hallamos los comportamientos que tienen tendencia lineal y determinamos el grado


de correlación entre las variables.
Referencias Bibliográficas.

Diagrama de dispersión. Mayo 08 de 2017. Recuperado de:


https://aprendiendocalidadyadr.com/diagrama-de-dispersion/

Correlación lineal simple. Recuperado de:


https://economipedia.com/definiciones/coeficiente-de-correlacion-lineal.html

Coeficiente de determinación R2. Recuperado de:


https://economipedia.com/definiciones/r-cuadrado-coeficiente-determinacion.html

Diferencias entre correlación positiva correlación negativa. Recuperado de:


https://diferencias.eu/entre-correlacion-positiva-y-correlacion-negativa/

Coeficiente de correlación lineal: recuperado de:


https://personal.us.es/vararey/adatos2/correlacion.pdf

https://es.wikipedia.org/wiki/Diagrama_de_dispersi%C3%B3n

https://es.wikipedia.org/wiki/Correlaci%C3%B3n

https://economipedia.com/definiciones/r-cuadrado-coeficiente-determinacion.html

https://www.uv.es/ceaces/base/descriptiva/coefcorre.htm

https://economipedia.com/definiciones/coeficiente-de-correlacion-lineal.html

Вам также может понравиться