Вы находитесь на странице: 1из 26

INTRODUCCION

La estadística es una ciencia que utiliza el método científico como medio para recoger,
organizar, resumir y analizar bases de datos, así como para sacar conclusiones válidas y
tomar decisiones razonables basadas en dicho análisis.
El presente trabajo nos muestra el análisis de la relación existente entre el archivo de datos
sobre las iniciativas de una compañía de telefonía móvil para reducir el abandono de cliente.
Para ello se trabajó con datos recopilados de tres estudios estadísticos donde haciendo uso
en una primera etapa de las medidas de tendencia central, medidas de dispersión, pruebas
de independencia y dependencia de variables y en una segunda etapa el método de
regresión lineal, se llegó a la construcción y organización de tablas y gráficos que fueron
necesarios para en una tercera etapa lograr la elaboración del análisis y las respectivas
conclusiones.
Además, fue necesario buscar aplicaciones informáticas idóneas que permitieran trabajar
con grandes bases de datos y para ello se utilizaron software como Microsoft Excel y SPSS
ya que ambos poseen herramientas especializadas en este campo.
Microsoft Excel es una herramienta ofimática que nos facilitó el trabajo en hojas de cálculo
ya que posee una interfaz especializada en tareas financieras y contables con fórmulas y
gráficos con un sencillo lenguaje de programación.
SPSS es un programa estadístico muy usado en las ciencias exactas y aplicadas además
de las empresas de investigación de mercado, ocupamos este programa por su capacidad
para trabajar con grandes bases de datos y su sencilla interface.

3
Objetivos

General:
Obtener las capacidades y destrezas necesarias para aplicar el método científico con el uso
de técnicas estadísticas para el análisis de grandes bases de datos utilizando
correctamente la metodología de organización, sistematización, tabulación y presentación
grafica de los datos, con el objeto de elaborar conclusiones que faciliten la toma de
decisiones en situaciones complejas que se caracterizan por estar sometidas a distintos
grados de incertidumbre.

Específicos:

 Organizar los datos en tablas.


 Categorizar y clasificación de las variables.
 Realizar los cálculos de medidas de tendencia central y dispersión.
 Calcular la regresión lineal para analizar los datos.
 Elaborar diagramas de dispersión para cada caso.
 Utilizar aplicaciones informáticas para la elaboración de diagramas, cálculos y
tablas.
 Presentar las conclusiones y resultados.

4
Marco Teórico

Medidas de tendencia central: Las medidas de centralización nos indican en torno a qué
valor (centro) se distribuyen los datos, entre ellas tenemos:
Moda: es el valor con mayor frecuencia absoluta.
Mediana: es el valor que ocupa el lugar central de todos los datos cuando estos están
ordenados crecientemente.
Media aritmética: es el valor obtenido de la suma de todos los los datos dividido entre el
número total de datos.

Medidas de dispersión: estas nos informan sobre cuánto se alejan del centro los valores
de la distribución y algunas de ellas son:
Rango: es el intervalo entre el valor máximo y el valor mínimo. Permite obtener una idea
de la dispersión de los datos, cuanto mayor es el rango, más dispersos están los datos de
un conjunto.
𝑅 = 𝑉𝑀á𝑥𝑖𝑚𝑜 − 𝑉𝑀í𝑛𝑖𝑚𝑜

Desviación media: es la media aritmética de los valores absolutos de las desviaciones


respecto a la media y se representa por:

Varianza: es la media aritmética del cuadrado de las desviaciones respecto a la media de


una distribución estadística y se representa por:

Desviación típica: es la raíz cuadrada de la varianza; es decir, la raíz cuadrada de la media


de los cuadrados de las puntuaciones de desviación y se representa por:

5
Regresión Lineal: es un modelo matemático usado para aproximar la relación de
dependencia entre una variable dependiente Y, las variables independientes Xi y un
término aleatorio ε. Este modelo puede ser expresado como:
𝑦̂ = 𝛽0 + 𝛽𝑖 𝑥
Para el análisis de regresión lineal, es necesario que ambas variables sean cuantitativas
continuas. El modelo de pronóstico de regresión lineal permite hallar el valor esperado de
una variable aleatoria a cuando b toma un valor específico. La aplicación de este método
implica un supuesto de linealidad cuando la demanda presenta un comportamiento
creciente o decreciente, por tal razón, se hace indispensable que previo a la selección de
este método exista un análisis de regresión que determine la intensidad de las relaciones
entre las variables que componen el modelo.

Coeficiente de correlación: comúnmente identificado como r o R, es una medida de


asociación entre las variables aleatorias “X” y “Y”, cuyo valor varía entre -1 y +1. Y está
dado por:
∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )(𝑦𝑖 − 𝑦̅)
𝑟=
√∑𝑛𝑖=1(𝑥𝑖− 𝑥̅ )2 ∙ ∑𝑛𝑖=1(𝑦𝑖 − 𝑦̅)2

El siguiente esquema muestra la relación de las variables según el valor de R.

6
Análisis de la variable: Minutos mensuales promedio

Mayor 326.25 Ancho de clase 18.17


Menor 53.64 lim.inf.inicial 53.54
Rango 272.61 diferencia 0.10
Intervalos 15.00

No Intervalo Intervalo Ancho fi Fi hi Hi media(Ac*hi)


inferior superior de
clase(Ac)
1 53.54 71.71 62.63 3 3 0.01 0.01 0.75
2 71.81 89.99 80.90 6 9 0.02 0.04 1.94
3 90.09 108.26 99.18 20 29 0.08 0.12 7.93
4 108.36 126.54 117.45 23 52 0.09 0.21 10.81
5 126.64 144.81 135.72 44 96 0.18 0.38 23.89
6 144.91 163.08 154.00 42 138 0.17 0.55 25.87
7 163.18 181.36 172.27 35 173 0.14 0.69 24.12
8 181.46 199.63 190.55 32 205 0.13 0.82 24.39
9 199.73 217.91 208.82 14 219 0.06 0.88 11.69
10 218.01 236.18 227.09 12 231 0.05 0.92 10.90
11 236.28 254.45 245.37 9 240 0.04 0.96 8.83
12 254.55 272.73 263.64 5 245 0.02 0.98 5.27
13 272.83 291.00 281.92 2 247 0.01 0.99 2.26
14 291.10 309.28 300.19 2 249 0.01 1.00 2.40
15 309.38 327.55 318.46 1 250 0.00 1.00 1.27
Total 250 1 162.33

Media: 162.33
𝑛
−(𝐹𝑖−1)
Mediana: 𝑚𝑒 = 𝐿𝑖 + 2
(Ac)
𝑓𝑖
𝑛 250
= = 125 125 − 96
2 2 𝑚𝑒 = 144.91 + (18.17)
42
Li=144.91
𝑚𝑒 = 157.46
𝑑1
Moda: 𝑀𝑜𝑑𝑎 = 𝐿𝑖 + (𝐴𝑐)
𝑑1 + 𝑑2
Li=126.64 44 − 23
𝑀𝑜𝑑𝑎 = 126.64 + (18.17)
Ac=ancho de clase (44 − 23) + (44 − 42)
d1= fi-(fi-1) Moda=143.23
d2= fi-(fi+1)

7
Minutos mensuales promedio
50

45

40

35

30

25

20

15

10

0
0.00 50.00 100.00 150.00 200.00 250.00 300.00 350.00

Análisis de los datos:

En esta gráfica están representados en el eje "x" el punto medio de cada intervalo de los
minutos consumidos por los clientes de la compañía. Mientras que el eje "y" nos muestra la
frecuencia absoluta de cada intervalo.
Como bien se observa en la gráfica, podemos apreciar que la moda de estos datos ronda
entre los intervalos con valores de 125 y 145. Mientras que la media aritmética esta entre
los valores 144.91 y 163.08 y posee una mediana que ronda igualmente entre 144.91 y
163.08. Lo cual nos demuestra que los valores extremos si influyen mucho en los datos ya
que la media se ve alterada por dichos valores extremos, siendo su frecuencia absoluta
mayor 44 con un ancho de clase 135.72 y su frecuencia absoluta menor 1 con un ancho de
clase 318.46.
Observamos que el 18% de la población consume en promedio 23.89 minutos. Teniéndose
en cuenta estos datos vemos que la compañía no es muy utilizada por sus clientes ya que
del 100% de estos, el 18% a penas consume menos de 24 minutos mensualmente.

8
Análisis de la variable: Facturas mensuales promedio

Mayor 121.24 Ancho de clase 7.55


Menor 8.00
Rango 113.23 lim.inf,incial 7.90
Intervalos 15.00 diferencia 0.10

No Intervalo Intervalo Ancho fi Fi hi Hi media(Ac*hi)


inferior superior de
clase(Ac)
1 7.90 15.45 11.67 3 3 0.01 0.01 0.14
2 15.55 23.10 19.32 2 5 0.01 0.02 0.15
3 23.20 30.75 26.97 8 13 0.03 0.05 0.86
4 30.85 38.39 34.62 13 26 0.05 0.10 1.80
5 38.49 46.04 42.27 15 41 0.06 0.16 2.54
6 46.14 53.69 49.92 37 78 0.15 0.31 7.39
7 53.79 61.34 57.57 33 111 0.13 0.44 7.60
8 61.44 68.99 65.22 40 151 0.16 0.60 10.43
9 69.09 76.64 72.86 33 184 0.13 0.74 9.62
10 76.74 84.29 80.51 33 217 0.13 0.87 10.63
11 84.39 91.94 88.16 19 236 0.08 0.94 6.70
12 92.04 99.58 95.81 5 241 0.02 0.96 1.92
13 99.68 107.23 103.46 4 245 0.02 0.98 1.66
14 107.33 114.88 111.11 2 247 0.01 0.99 0.89
15 114.98 122.53 118.76 3 250 0.01 1.00 1.43
Total 250 1 63.75

Media: 63.75
𝑛
−(𝐹𝑖−1)
Mediana: 𝑚𝑒 = 𝐿𝑖 + 2 (Ac)
𝑓𝑖
𝑛 250
= = 125 125 − 111
2 2 𝑚𝑒 = 61.44 + (7.55)
40
Li=61.44
𝑚𝑒 = 64.08
𝑑1
Moda: 𝑀𝑜𝑑𝑎 = 𝐿𝑖 + (𝐴𝑐)
𝑑1 + 𝑑2
Li=61.44 40 − 33
𝑀𝑜𝑑𝑎 = 61.44 + (7,55)
Ac=ancho de clase (40 − 33) + (40 − 33)
d1= fi-(fi-1) Moda=65.22
d2= fi-(fi+1)

9
Facturas mensuales promedio
45

40

35

30

25

20

15

10

0
0.00 20.00 40.00 60.00 80.00 100.00 120.00 140.00

Análisis de los datos:

En este polígono de frecuencias vemos que se está representando las facturas mensuales
promedio que reciben los clientes de la compañía. En el eje "x" se encuentran las marcas
de clase de cada intervalo, y en el eje "y" están las frecuencias absolutas.
En esta distribución de datos la moda es 65.22, mientras que la mediana es de 61.44 y la
media tiene un valor de 63.75. Como bien se observa, estos valores están muy cercanos
los unos de los otros, sin embargo, la distribución de los datos es simétrica a la derecha.
Vemos que el 16% de las facturas tienen una media individual de 10.43 con una frecuencia
absoluta de 40. Es decir que el 16% de las facturas rondan entre los 61.44 y 68.99.

10
Análisis de la variable: Porcentaje usado en negocios

Mayor 59.23 Ancho de clase 3.57


Menor 5.65 lim.inf.inicial 5.55
Rango 53.58 Diferencia 0.10
Intervalo 15.00

No Intervalo Intervalo Ancho fi Fi hi Hi media(Ac*hi)


inferior superior de
clase(Ac)
1 5.55 9.12 7.34 3 3 0.01 0.01 0.09
2 9.22 12.79 11.01 0 3 0.00 0.01 0.00
3 12.89 16.47 14.68 5 8 0.02 0.03 0.29
4 16.57 20.14 18.35 6 14 0.02 0.06 0.44
5 20.24 23.81 22.02 34 48 0.14 0.19 3.00
6 23.91 27.48 25.70 23 71 0.09 0.28 2.36
7 27.58 31.15 29.37 38 109 0.15 0.44 4.46
8 31.25 34.83 33.04 37 146 0.15 0.58 4.89
9 34.93 38.50 36.71 43 189 0.17 0.76 6.31
10 38.60 42.17 40.38 24 213 0.10 0.85 3.88
11 42.27 45.84 44.06 20 233 0.08 0.93 3.52
12 45.94 49.51 47.73 8 241 0.03 0.96 1.53
13 49.61 53.19 51.40 4 245 0.02 0.98 0.82
14 53.29 56.86 55.07 4 249 0.02 1.00 0.88
15 56.96 60.53 58.74 1 250 0.00 1.00 0.23
Total 250 1 32.72

Media: 32.72
𝑛
−(𝐹𝑖−1)
Mediana: 𝑚𝑒 = 𝐿𝑖 + 2 (Ac)
𝑓𝑖
𝑛 250
= = 125 125 − 109
2 2 𝑚𝑒 = 31.25 + (3.57)
37
Li=31.25
𝑚𝑒 = 32.79
𝑑1
Moda: 𝑀𝑜𝑑𝑎 = 𝐿𝑖 + (𝐴𝑐)
𝑑1 + 𝑑2
Li=34.93 43 − 37
𝑀𝑜𝑑𝑎 = 34.93 + (3,57)
Ac=ancho de clase (43 − 37) + (43 − 24)
d1= fi-(fi-1) Moda=35.78
d2= fi-(fi+1)

11
Porcentaje usado en negocios
50

45

40

35

30

25

20

15

10

0
0.00 10.00 20.00 30.00 40.00 50.00 60.00 70.00

Análisis de los datos:

En esta gráfica se tiene representado el porcentaje de clientes que usa a la compañía para
hacer negocios. En el eje "x" se encuentra el ancho de clase de los porcentajes de uso de
negocios y en el eje "y" se encuentra sus respectivas frecuencias absolutas.
Existe una asimetría negativa con un valor de la media que ronda los intervalos 7 y 8 y su
valor es 32.72, la moda es 35.78 y la mediana de 32.79. Podemos observar que el 17% de
los clientes de esta compañía que la utilizan para sus negocios tienen en promedio 6.31 del
uso para negocios total. Se observa que los porcentajes mayores se encuentran en los
intervalos de clase que están al centro de la lista de frecuencias, dejando porcentajes
sumamente pequeños como de 3 % y 1% en los extremos inferior y superior
respectivamente.
Esto nos dice que la media se ve afectada por estos valores extremos, pero a pesar de eso,
al tener valores tan pequeños en los extremos no es muy importante esta alteración en la
media.

12
Análisis de la variable: Años usando nuestro servicio

Mayor 4.37 Ancho de clase 0.22


Menor 1.02 lim.inf.inicial 1.01
Rango 3.35 Diferencia 0.01
Intervalo 15.00

No Intervalo Intervalo Ancho fi Fi hi Hi media(Ac*hi)


inferior superior de
clase(Ac)
1 1.01 1.23 1.12 2 2 0.01 0.01 0.01
2 1.24 1.47 1.36 6 8 0.02 0.03 0.03
3 1.48 1.70 1.59 8 16 0.03 0.06 0.05
4 1.71 1.93 1.82 11 27 0.04 0.11 0.08
5 1.94 2.17 2.06 20 47 0.08 0.19 0.16
6 2.18 2.40 2.29 33 80 0.13 0.32 0.30
7 2.41 2.63 2.52 33 113 0.13 0.45 0.33
8 2.64 2.87 2.76 39 152 0.16 0.61 0.43
9 2.88 3.10 2.99 37 189 0.15 0.76 0.44
10 3.11 3.33 3.22 30 219 0.12 0.88 0.39
11 3.34 3.57 3.46 15 234 0.06 0.94 0.21
12 3.58 3.80 3.69 7 241 0.03 0.96 0.10
13 3.81 4.03 3.92 6 247 0.02 0.99 0.09
14 4.04 4.27 4.16 2 249 0.01 1.00 0.03
15 4.28 4.50 4.39 1 250 0.00 1.00 0.02
Total 250 1 2.69

Media: 2.69
𝑛
−(𝐹𝑖−1)
Mediana: 𝑚𝑒 = 𝐿𝑖 + 2
(Ac)
𝑛 250 𝑓𝑖
= 2 = 125 125 − 113
2
𝑚𝑒 = 2.64 + (0.22)
Li=2.64 39
𝑚𝑒 = 2.70
𝑑1
Moda: 𝑀𝑜𝑑𝑎 = 𝐿𝑖 + (𝐴𝑐)
𝑑1 + 𝑑2
Li=2.64 39 − 33
𝑀𝑜𝑑𝑎 = 2.64 + (0.22)
Ac=ancho de clase (39 − 33) + (39 − 37)
d1= fi-(fi-1) Moda=2.81
d2= fi-(fi+1)

13
Años usando el servicio
45

40

35

30

25

20

15

10

0
0.00 0.50 1.00 1.50 2.00 2.50 3.00 3.50 4.00 4.50 5.00

Análisis de los datos:

En la gráfica número cuatro se ha analizado la variable de años que se ha utilizado la


compañía por sus clientes. En el eje "x" se encuentra los anchos de clase y en el eje "y" las
frecuencias absolutas. Se observa que existe una media de 2.69, una mediana de 2.7 y la
moda en este caso es de 2.81. Esta distribución de datos posee una asimetría negativa.
Teniendo en cuenta los intervalos inferiores y superiores extremos, podemos asumir que
esta compañía es bastante nueva puesto que sus clientes no sobrepasan los cinco años de
utilizarla. Observamos que la cantidad mayor de clientes es de 39 y estos tienen utilizando
esta compañía un promedio anual de 0.43, con un porcentaje del 16%.
En esta distribución de frecuencias absolutas vemos que los valores mayores se
encuentran en el centro de las distribuciones, por lo tanto, los valores extremos al ser muy
pequeños no afectan demasiado la media.

14
Análisis de la variable: Ingresos familiares

Mayor 95.44 Ancho de clase 4.35


Menor 30.15 lim.inf.inicial 30.05
Rango 65.29 Diferencia 0.1
Intervalo 15.00

No Intervalo Intervalo Ancho fi Fi hi Hi media(Ac*hi)


inferior superior de
clase(Ac)
1 30.05 34.40 32.23 2 2 0.01 0.01 0.26
2 34.50 38.86 36.68 6 8 0.02 0.03 0.88
3 38.96 43.31 41.13 3 11 0.01 0.04 0.49
4 43.41 47.76 45.58 19 30 0.08 0.12 3.46
5 47.86 52.21 50.04 17 47 0.07 0.19 3.40
6 52.31 56.67 54.49 25 72 0.10 0.29 5.45
7 56.77 61.12 58.94 54 126 0.22 0.50 12.73
8 61.22 65.57 63.40 33 159 0.13 0.64 8.37
9 65.67 70.02 67.85 37 196 0.15 0.78 10.04
10 70.12 74.48 72.30 25 221 0.10 0.88 7.23
11 74.58 78.93 76.75 16 237 0.06 0.95 4.91
12 79.03 83.38 81.21 7 244 0.03 0.98 2.27
13 83.48 87.83 85.66 4 248 0.02 0.99 1.37
14 87.93 92.29 90.11 1 249 0.00 1.00 0.36
15 92.39 96.74 94.56 1 250 0.00 1.00 0.38
Total 250 1 61.61

Media: 61.61
𝑛
−(𝐹𝑖−1)
Mediana: 𝑚𝑒 = 𝐿𝑖 + 2 (Ac)
𝑓𝑖
𝑛 250
= = 125 125 − 72
2 2 𝑚𝑒 = 56.77 + (4.35)
54
Li=56.77
𝑚𝑒 =61.04
𝑑1
Moda: 𝑀𝑜𝑑𝑎 = 𝐿𝑖 + (𝐴𝑐)
𝑑1 + 𝑑2
Li=56.77 54 − 25
𝑀𝑜𝑑𝑎 = 56.77 + (4.35)
Ac=ancho de clase (54 − 25) + (54 − 33)
d1= fi-(fi-1) Moda=59.29
d2= fi-(fi+1)

15
Ingresos familiares
60

50

40

30

20

10

0
0.00 10.00 20.00 30.00 40.00 50.00 60.00 70.00 80.00 90.00 100.00

Análisis de los datos:

En este polígono de frecuencias se ha analizado los ingresos de cada familia que es cliente
de la compañía telefónica. Tenemos en el eje "x" las marcas de clase y en el eje "y" sus
respectivas frecuencias absolutas.
Podemos ver que existe una moda de 59.29 una mediana de 61.04 y una media de 61.61.
Por lo tanto, decimos que está gráfica está distribuida con una simetría positiva. También
vemos que los ingresos familiares en los que se encuentra la moda constituyen un 22% del
total. Es decir, que el 22% de las familias reciben un ingreso que ronda entre los 56.77 y
los 61.12 mientras que por ejemplo un 7% de las familias reciben como ingreso a lo sumo
52.21. Sin embargo, hay varias familias que constituyen un mismo porcentaje de población
y reciben ingresos sumamente diferentes.
Por ejemplo, tenemos un 2% que recibe entre 34.50 y 38.56 y otro 2% de las familias
reciben entre 83.48 y 87.83 de ingresos.

16
Análisis de la variable: Propensión al abandono

Mayor 83.45 Ancho de clase 4.45


Menor 16.71 lim.inf.inicial 16.61
Rango 66.74 Diferencia 0.1
Intervalo 15.00

No Intervalo Intervalo Ancho fi Fi hi Hi media(Ac*hi)


inferior superior de
clase(Ac)
1 16.61 21.06 18.83 3 3 0.01 0.01 0.23
2 21.16 25.61 23.38 10 13 0.04 0.05 0.94
3 25.71 30.16 27.93 26 39 0.10 0.16 2.91
4 30.26 34.71 32.48 45 84 0.18 0.34 5.85
5 34.81 39.26 37.03 52 136 0.21 0.54 7.70
6 39.36 43.81 41.58 45 181 0.18 0.72 7.48
7 43.91 48.36 46.13 16 197 0.06 0.79 2.95
8 48.46 52.90 50.68 5 202 0.02 0.81 1.01
9 53.00 57.45 55.23 7 209 0.03 0.84 1.55
10 57.55 62.00 59.78 10 219 0.04 0.88 2.39
11 62.10 66.55 64.33 14 233 0.06 0.93 3.60
12 66.65 71.10 68.88 8 241 0.03 0.96 2.20
13 71.20 75.65 73.43 5 246 0.02 0.98 1.47
14 75.75 80.20 77.98 2 248 0.01 0.99 0.62
15 80.30 84.75 82.53 2 250 0.01 1.00 0.66
Total 250 1 41.56

Media: 41.56
𝑛
−(𝐹𝑖−1)
Mediana: 𝑚𝑒 = 𝐿𝑖 + 2 (Ac)
𝑓𝑖
𝑛 250
= = 125 125 − 136
2 2 𝑚𝑒 = 34.81 + (4.45)
52
Li=34.81
𝑚𝑒 = 33.86
𝑑1
Moda: 𝑀𝑜𝑑𝑎 = 𝐿𝑖 + (𝐴𝑐)
𝑑1 + 𝑑2
Li=34.81 52 − 45
𝑀𝑜𝑑𝑎 = 34.81 + (4.45)
Ac=ancho de clase (52 − 45) + (52 − 45)
d1= fi-(fi-1) Moda=37.04
d2= fi-(fi+1)

17
Propension al abandono
60

50

40

30

20

10

0
0.00 10.00 20.00 30.00 40.00 50.00 60.00 70.00 80.00 90.00

Análisis de los datos:


En la gráfica número seis se ha proporcionado la información de la propensión al abandono
que sufre la compañía. En el eje "x" se encuentra las marcas de clase, en el eje "y" están
las frecuencias absolutas.
Está gráfica presenta una asimetría positiva con un valor de media aritmética de 41.56, una
mediana de 33.86 y su moda corresponde a 37.04. Se asume mediante estos valores que
es muy poco probable que haya una gran amenaza al abandono de la compañía por parte
de los clientes puesto que es solo un 22% que sobrepasan las marcas de clase mayores a
50. Es decir que es mayor el porcentaje de clientes que son menos propensos a querer
cambiarse de compañía que los que si son propensos.

18
Relación: Minutos mensuales promedio(x) y Factura mensual promedio(y)

Cálculos para la recta de regresión de ¨y sobre x¨ y ¨x sobre y¨

∑x ∑y X*Y x^2 Ŷi= βo+βiX (Ŷi-y̅)^2 (yi-y̅)^2 y^2 x̂i= βoo+βiiY ∑(x̂i-x̅)^2 ∑(xi-x̅)^2
40546.37 15849.09 2680183.02 7116063.21 15849.09 22280.32 97619.18 1102393.80 40546.37 123255.08 2537441.74

∑𝑥 40546.37 ∑𝑥 15849.09
𝑥̅ = = = 162.37 𝑦̅ = = = 63.40
𝑛 250 𝑛 250

Recta de regresión de y sobre x Recta de regresión de x sobre y

(Σxiyi − n𝑥̅ 𝑦̅) (Σxiyi − n𝑥̅ 𝑦̅)


𝛽𝑖 = = 0.203 𝛽𝑖𝑖 = = 1.12
ΣX𝑖 2 − n𝑥̅ 2 ΣY𝑖 2 − n𝑦̅ 2

𝛽𝑜 = 𝑦̅ − 𝛽𝑖𝑥̅ = 30.45 𝛽𝑜𝑜 = 𝑥̅ − 𝛽𝑖𝑖𝑦̅ = 90.95

Σ(ŷi − y̅ )2 Σ(𝑥̂i − 𝑥̅ )2
𝑟2 = = 0.23 𝑟2 = = 0.29
Σ(Yi − y̅ )2 Σ(Xi − 𝑥̅ )2

𝑦̂= 0.203x + 30.45 𝑥̂= 1.1237y + 90.95

19
Recta de regression de Y sobre X

120.00

100.00 y = 0.2031x + 30.453


R² = 0.23
Factura mensual

80.00

60.00

40.00

20.00

0.00
0.00 50.00 100.00 150.00 200.00 250.00 300.00 350.00
Minutos mensuales promedio

Recta de regression de X sobre Y

250.00
y = 1.1237x + 90.95
R² = 0.29
200.00
Minutos mensuales

150.00

100.00

50.00

0.00
0.00 20.00 40.00 60.00 80.00 100.00 120.00 140.00
Factura mensual

20
Análisis de los gráficos:
Descripción: En el primer diagrama tenemos horizontalmente en la base del grafico la
variable independiente o “X” que representa al promedio de minutos mensuales y
verticalmente la variable independiente o “Y” que nos indica el costo de la factura mensual.
También podemos observar que se trata del caso más simple de regresión lineal ya que
ajusta a la ecuación de la recta, los valores de la variable independiente X a la variable
dependiente Y, es decir que sigue este modelo: Y = mx + b, dando como resultado
Y = 0.23x + 30.45, donde m = 0.203 es la ordenada en el origen y B = 30.45 es la pendiente
de la recta.
El ajuste a esta ecuación se hizo mediante el método de rectas de regresión que se
caracteriza por la obtención de b0 es decir b, bi o sea m y el coeficiente de correlación de
Pearson r= 0.48 que como resulta ser mayor a cero (r > 0) la recta es positiva.
También r al ser elevada al cuadrado nos sirve para obtener el coeficiente de determinación
que en este caso nos dio R2= 0.23.
Análisis: En el diagrama se representa claramente, una relación positiva entre las dos
variables estudiadas, que se refleja en una nube de puntos cuyo eje principal tiene un
sentido creciente, como consecuencia del hecho de que, en términos generales, el costo
de la factura mensual es más alto en relación aumenta el número promedio de minutos
mensuales.

Descripción: En el segundo diagrama tenemos horizontalmente la variable a “Y” que


representa el costo de la factura mensual y verticalmente a “X” representando al promedio
de minutos mensuales.
También tenemos un caso simple de regresión lineal y se ajusta a la ecuación de la recta
X = my + b, dando como resultado X = 1.1237y + 90.95 donde m = 1.1237 es la ordenada
en el origen y b = 90.95 es la pendiente de la recta.
El ajuste a esta ecuación se hizo mediante el método de rectas de regresión que se
caracteriza por la obtención de b0 es decir b, y bi es decir m y el coeficiente de correlación
de Pearson r= 0.53 que como resulta ser mayor a cero (r > 0) nos indica que la recta es
positiva.
También r al ser elevada al cuadrado nos sirve para obtener el coeficiente de determinación
que en este caso nos dio R2= 0.29.
Análisis: En el diagrama se representa claramente, una relación positiva entre las dos
variables estudiadas, que se refleja en una nube de puntos cuyo eje principal tiene un
sentido creciente, como consecuencia del hecho de que, en términos generales, entre más
sea el promedio de minutos mensuales utilizados mayor será el costo de la factura mensual.

21
Relación: Porcentaje usado en negocios(x) y Años usando nuestro servicio(y)

Cálculos para la recta de regresión de ¨y sobre x¨ y ¨x sobre y¨

∑x ∑y X*Y x^2 Ŷi= βo+βiX (Ŷi-y̅)^2 (yi-y̅)^2 y^2 x̂i= βoo+βiiY ∑(x̂i-x̅)^2 ∑(xi-x̅)^2
8171.20 669.90 22317.04 287539.16 669.90 8.68 90.85 82.17 1885.92 8171.20 1955.43

∑𝑥 81171.20 ∑𝑥 669.90
𝑥̅ = = = 32.68 𝑦̅ = = = 2.68
𝑛 250 𝑛 250

Recta de regresión de y sobre x Recta de regresión de x sobre y

(Σxiyi − n𝑥̅ 𝑦̅) (Σxiyi − n𝑥̅ 𝑦̅)


𝛽𝑖 = = 0.02 𝛽𝑖𝑖 = = 4.64
ΣX𝑖 2 − n𝑥̅ 2 ΣY𝑖 2 − n𝑦̅ 2

𝛽𝑜 = 𝑦̅ − 𝛽𝑖𝑥̅ = 2.01 𝛽𝑜𝑜 = 𝑥̅ − 𝛽𝑖𝑖𝑦̅ = 20.25

Σ(ŷi − y̅ )2 Σ(𝑥̂i − 𝑥̅ )2
𝑟2 = = 0.096 𝑟2 = = 0.095
Σ(Yi − y̅ )2 Σ(Xi − 𝑥̅ )2

𝑦̂= 0.02x + 2.01 𝑥̂= 4.64y + 20.25

22
Recta de regresión de Y sobre X

3.50

Años usando el servicio 3.00

2.50
y = 0.0206x + 2.0064
2.00 R² = 0.096

1.50

1.00

0.50

0.00
0.00 10.00 20.00 30.00 40.00 50.00 60.00 70.00
Porcentaje usado en negocios

Recta de regresión de X sobre Y

45
y = 4.6393x + 20.253
40
R² = 0.096
Porcentaje usado en negocios

35
30
25
20
15
10
5
0
0.00 1.00 2.00 3.00 4.00 5.00
Años usando nuestro servicio

23
Análisis de los gráficos:
Descripción: En el primer diagrama tenemos horizontalmente en la base del grafico la
variable independiente o “X” que representa al porcentaje usado en negocios y
verticalmente la variable independiente o “Y” que nos indica los años usando el servicio.
También podemos observar que se trata del caso más simple de regresión lineal ya que
ajusta a la ecuación de la recta, los valores de la variable independiente X a la variable
dependiente Y, es decir que sigue este modelo: Y = mx + b, dando como resultado
Y = 0.0206x + 2.0064, donde m = 0.0206 es la ordenada en el origen y B = 2.0064 es la
pendiente de la recta.
El ajuste a esta ecuación se hizo mediante el método de rectas de regresión que se
caracteriza por la obtención de b0 es decir b, bi o sea m y el coeficiente de correlación de
Pearson r= 0.31 que como resulta ser mayor a cero (r > 0) la recta es positiva.
También r al ser elevada al cuadrado nos sirve para obtener el coeficiente de determinación
que en este caso nos dio R2= 0.096.
Análisis: En el diagrama se representa claramente, una relación positiva entre las dos
variables estudiadas, que se refleja en una nube de puntos cuyo eje principal tiene un
sentido creciente, como consecuencia del hecho de que, en términos generales, entre más
años usamos el servicio más alto será el porcentaje usado en negocios.

Descripción: En el segundo diagrama tenemos horizontalmente la variable a “y” que


representa la cantidad de años usando el servicio y verticalmente a “X” representando el
porcentaje usado en negocios.
También tenemos un caso simple de regresión lineal que se ajusta a la ecuación de la recta
X = my + b, dando como resultado X = 4.6393y + 20.253, donde m = 4.6393 es la ordenada
en el origen y b = 20.253 es la pendiente de la recta.
El ajuste a esta ecuación se hizo mediante el método de rectas de regresión que se
caracteriza por la obtención de b0 es decir b, y bi es decir m y el coeficiente de correlación
de Pearson r= 0.30 que como resulta ser mayor a cero (r > 0) nos indica que la recta es
positiva.
También r al ser elevada al cuadrado nos sirve para obtener el coeficiente de determinación
que en este caso nos dio R2= 0.095.
Análisis: En el diagrama se representa claramente, una relación positiva entre las dos
variables estudiadas, que se refleja en una nube de puntos cuyo eje principal tiene un
sentido creciente, como consecuencia del hecho de que, en términos generales, entre más
sea el porcentaje usado en negocios mayor serán los años usando el servicio.

24
Relación: Ingresos familiares (1998) (x) y Propensión al abandono (y)

Cálculos para la recta de regresión de ¨y sobre x¨ y ¨x sobre y¨

∑x ∑y X*Y x^2 Ŷi= βo+βiX (Ŷi-y̅)^2 (yi-y̅)^2 y^2 x̂i= βoo+βiiY ∑(x̂i-x̅)^2 ∑(xi-x̅)^2

15397.47 10384.92 648367.6282 979095.9205 10384.92 2495.0 44206.62 475592.9 15397.47 1736.54 30767.6

∑𝑥 15397.47 ∑𝑥 10384.92
𝑥̅ = = = 61.59 𝑦̅ = = = 41.54
𝑛 250 𝑛 250

Recta de regresión de y sobre x Recta de regresión de x sobre y

(Σxiyi − n𝑥̅ 𝑦̅) (Σxiyi − n𝑥̅ 𝑦̅)


𝛽𝑖 = = 0.284 𝛽𝑖𝑖 = = 0.1982
ΣX𝑖 2 − n𝑥̅ 2 ΣY𝑖 2 − n𝑦̅ 2

𝛽𝑜 = 𝑦̅ − 𝛽𝑖𝑥̅ = 24.001 𝛽𝑜𝑜 = 𝑥̅ − 𝛽𝑖𝑖𝑦̅ = 53.356

Σ(ŷi − y̅ )2 Σ(𝑥̂i − 𝑥̅ )2
𝑟2 = = 0.056 𝑟2 = = 0.056
Σ(Yi − y̅ )2 Σ(Xi − 𝑥̅ )2

𝑦̂= 0.284x + 24.001 𝑥̂= 0.1982y + 53.356

25
Recta de regresion de Y sobre X

60

y = 0.2848x + 24.002
50 R² = 0.056
Propensión al abandono

40

30

20

10

0
0 20 40 60 80 100 120
Ingresos familiares

Recta de regression de X sobre Y

80
y = 0.1982x + 53.358
70
R² = 0.056
60
Ingresos familiares

50

40

30

20

10

0
0 10 20 30 40 50 60 70 80 90
Propensión al abandono

26
Análisis de los gráficos:
Descripción: En el primer diagrama tenemos horizontalmente en la base del grafico la
variable independiente o “X” que representa a los ingresos familiares y verticalmente la
variable independiente o “Y” que nos indica la propensión al abandono.
También podemos observar que se trata del caso más simple de regresión lineal ya que
ajusta a la ecuación de la recta, los valores de la variable independiente X a la variable
dependiente Y, es decir que sigue este modelo: Y = mx + b, dando como resultado Y=
0.2848x + 24.002, donde m = 0.2848 es la ordenada en el origen y B = 24.002 es la
pendiente de la recta.
El ajuste a esta ecuación se hizo mediante el método de rectas de regresión que se
caracteriza por la obtención de b0 es decir b, bi o sea m y el coeficiente de correlación de
Pearson r= 0.24 que como resulta ser mayor a cero (r > 0) la recta es positiva.
También r al ser elevada al cuadrado nos sirve para obtener el coeficiente de determinación
que en este caso nos dio R2= 0.056.
Análisis: En el diagrama se representa claramente, una relación positiva entre las dos
variables estudiadas, que se refleja en una nube de puntos cuyo eje principal tiene un
sentido creciente, como consecuencia del hecho de que, en términos generales, entre
mayor es el ingreso familiar más alto será la propensión al abandono.

Descripción: En el segundo diagrama tenemos horizontalmente la variable a “y” que


representa la propensión al abandono y verticalmente a “X” representando los ingresos
familiares.
También tenemos un caso simple de regresión lineal que se ajusta a la ecuación de la recta
X = my + b, dando como resultado X = 0.1982y + 53.358, donde m = 0.1982 es la ordenada
en el origen y b = 53.358 es la pendiente de la recta.
El ajuste a esta ecuación se hizo mediante el método de rectas de regresión que se
caracteriza por la obtención de b0 es decir b, y bi es decir m y el coeficiente de correlación
de Pearson r= 0. que como resulta ser mayor a cero (r > 0) nos indica que la recta es
positiva.
También r al ser elevada al cuadrado nos sirve para obtener el coeficiente de determinación
que en este caso nos dio R2= 0.056.
Análisis: En el diagrama se representa claramente, una relación positiva entre las dos
variables estudiadas, que se refleja en una nube de puntos cuyo eje principal tiene un
sentido creciente, como consecuencia del hecho de que, en términos generales, entre
mayores sean los ingresos familiares mayor será la propensión al abandono.

27
Conclusión
Luego de haber realizado el anterior trabajo podemos decir que hemos sido capaces de
desarrollar las destrezas necesarias para utilizar las técnicas estadísticas adecuadamente
con lo cual cumplimos el objetivo planteado.
Organizamos los datos recolectados de la base de datos de tal manera que pudimos
analizarlos y categorizarlos para darle la sistematización en tablas y realizando los
respectivos cálculos estadísticos de tendencia central y dispersión para luego ser
analizados por medio de la regresión lineal pudiendo así dar las siguientes conclusiones:
Para los tres casos analizados los diagramas representaron claramente, una relación lineal
positiva entre las dos variables estudiadas, que se reflejó en una nube de puntos cuyo eje
principal tiene un sentido creciente, como consecuencia del hecho de que, en términos
generales, entre más aumento la variable Independiente mayor fue el aumento de la
variable dependiente y las rectas resultantes del análisis de regresión lineal fueron las
siguientes:

Según la formula Para: Y = mx + b Para : X = my + b

Primer caso: Y = 0.23x + 30.45 X = 1.1237y + 90.95

Segundo caso: Y = 0.0206x + 2.0064 X = 4.6393y + 20.253

Tercer caso: Y = 0.2848x + 24.002 X = 0.1982y + 53.358

28