La estadística es una ciencia que utiliza el método científico como medio para recoger,
organizar, resumir y analizar bases de datos, así como para sacar conclusiones válidas y
tomar decisiones razonables basadas en dicho análisis.
El presente trabajo nos muestra el análisis de la relación existente entre el archivo de datos
sobre las iniciativas de una compañía de telefonía móvil para reducir el abandono de cliente.
Para ello se trabajó con datos recopilados de tres estudios estadísticos donde haciendo uso
en una primera etapa de las medidas de tendencia central, medidas de dispersión, pruebas
de independencia y dependencia de variables y en una segunda etapa el método de
regresión lineal, se llegó a la construcción y organización de tablas y gráficos que fueron
necesarios para en una tercera etapa lograr la elaboración del análisis y las respectivas
conclusiones.
Además, fue necesario buscar aplicaciones informáticas idóneas que permitieran trabajar
con grandes bases de datos y para ello se utilizaron software como Microsoft Excel y SPSS
ya que ambos poseen herramientas especializadas en este campo.
Microsoft Excel es una herramienta ofimática que nos facilitó el trabajo en hojas de cálculo
ya que posee una interfaz especializada en tareas financieras y contables con fórmulas y
gráficos con un sencillo lenguaje de programación.
SPSS es un programa estadístico muy usado en las ciencias exactas y aplicadas además
de las empresas de investigación de mercado, ocupamos este programa por su capacidad
para trabajar con grandes bases de datos y su sencilla interface.
3
Objetivos
General:
Obtener las capacidades y destrezas necesarias para aplicar el método científico con el uso
de técnicas estadísticas para el análisis de grandes bases de datos utilizando
correctamente la metodología de organización, sistematización, tabulación y presentación
grafica de los datos, con el objeto de elaborar conclusiones que faciliten la toma de
decisiones en situaciones complejas que se caracterizan por estar sometidas a distintos
grados de incertidumbre.
Específicos:
4
Marco Teórico
Medidas de tendencia central: Las medidas de centralización nos indican en torno a qué
valor (centro) se distribuyen los datos, entre ellas tenemos:
Moda: es el valor con mayor frecuencia absoluta.
Mediana: es el valor que ocupa el lugar central de todos los datos cuando estos están
ordenados crecientemente.
Media aritmética: es el valor obtenido de la suma de todos los los datos dividido entre el
número total de datos.
Medidas de dispersión: estas nos informan sobre cuánto se alejan del centro los valores
de la distribución y algunas de ellas son:
Rango: es el intervalo entre el valor máximo y el valor mínimo. Permite obtener una idea
de la dispersión de los datos, cuanto mayor es el rango, más dispersos están los datos de
un conjunto.
𝑅 = 𝑉𝑀á𝑥𝑖𝑚𝑜 − 𝑉𝑀í𝑛𝑖𝑚𝑜
5
Regresión Lineal: es un modelo matemático usado para aproximar la relación de
dependencia entre una variable dependiente Y, las variables independientes Xi y un
término aleatorio ε. Este modelo puede ser expresado como:
𝑦̂ = 𝛽0 + 𝛽𝑖 𝑥
Para el análisis de regresión lineal, es necesario que ambas variables sean cuantitativas
continuas. El modelo de pronóstico de regresión lineal permite hallar el valor esperado de
una variable aleatoria a cuando b toma un valor específico. La aplicación de este método
implica un supuesto de linealidad cuando la demanda presenta un comportamiento
creciente o decreciente, por tal razón, se hace indispensable que previo a la selección de
este método exista un análisis de regresión que determine la intensidad de las relaciones
entre las variables que componen el modelo.
6
Análisis de la variable: Minutos mensuales promedio
Media: 162.33
𝑛
−(𝐹𝑖−1)
Mediana: 𝑚𝑒 = 𝐿𝑖 + 2
(Ac)
𝑓𝑖
𝑛 250
= = 125 125 − 96
2 2 𝑚𝑒 = 144.91 + (18.17)
42
Li=144.91
𝑚𝑒 = 157.46
𝑑1
Moda: 𝑀𝑜𝑑𝑎 = 𝐿𝑖 + (𝐴𝑐)
𝑑1 + 𝑑2
Li=126.64 44 − 23
𝑀𝑜𝑑𝑎 = 126.64 + (18.17)
Ac=ancho de clase (44 − 23) + (44 − 42)
d1= fi-(fi-1) Moda=143.23
d2= fi-(fi+1)
7
Minutos mensuales promedio
50
45
40
35
30
25
20
15
10
0
0.00 50.00 100.00 150.00 200.00 250.00 300.00 350.00
En esta gráfica están representados en el eje "x" el punto medio de cada intervalo de los
minutos consumidos por los clientes de la compañía. Mientras que el eje "y" nos muestra la
frecuencia absoluta de cada intervalo.
Como bien se observa en la gráfica, podemos apreciar que la moda de estos datos ronda
entre los intervalos con valores de 125 y 145. Mientras que la media aritmética esta entre
los valores 144.91 y 163.08 y posee una mediana que ronda igualmente entre 144.91 y
163.08. Lo cual nos demuestra que los valores extremos si influyen mucho en los datos ya
que la media se ve alterada por dichos valores extremos, siendo su frecuencia absoluta
mayor 44 con un ancho de clase 135.72 y su frecuencia absoluta menor 1 con un ancho de
clase 318.46.
Observamos que el 18% de la población consume en promedio 23.89 minutos. Teniéndose
en cuenta estos datos vemos que la compañía no es muy utilizada por sus clientes ya que
del 100% de estos, el 18% a penas consume menos de 24 minutos mensualmente.
8
Análisis de la variable: Facturas mensuales promedio
Media: 63.75
𝑛
−(𝐹𝑖−1)
Mediana: 𝑚𝑒 = 𝐿𝑖 + 2 (Ac)
𝑓𝑖
𝑛 250
= = 125 125 − 111
2 2 𝑚𝑒 = 61.44 + (7.55)
40
Li=61.44
𝑚𝑒 = 64.08
𝑑1
Moda: 𝑀𝑜𝑑𝑎 = 𝐿𝑖 + (𝐴𝑐)
𝑑1 + 𝑑2
Li=61.44 40 − 33
𝑀𝑜𝑑𝑎 = 61.44 + (7,55)
Ac=ancho de clase (40 − 33) + (40 − 33)
d1= fi-(fi-1) Moda=65.22
d2= fi-(fi+1)
9
Facturas mensuales promedio
45
40
35
30
25
20
15
10
0
0.00 20.00 40.00 60.00 80.00 100.00 120.00 140.00
En este polígono de frecuencias vemos que se está representando las facturas mensuales
promedio que reciben los clientes de la compañía. En el eje "x" se encuentran las marcas
de clase de cada intervalo, y en el eje "y" están las frecuencias absolutas.
En esta distribución de datos la moda es 65.22, mientras que la mediana es de 61.44 y la
media tiene un valor de 63.75. Como bien se observa, estos valores están muy cercanos
los unos de los otros, sin embargo, la distribución de los datos es simétrica a la derecha.
Vemos que el 16% de las facturas tienen una media individual de 10.43 con una frecuencia
absoluta de 40. Es decir que el 16% de las facturas rondan entre los 61.44 y 68.99.
10
Análisis de la variable: Porcentaje usado en negocios
Media: 32.72
𝑛
−(𝐹𝑖−1)
Mediana: 𝑚𝑒 = 𝐿𝑖 + 2 (Ac)
𝑓𝑖
𝑛 250
= = 125 125 − 109
2 2 𝑚𝑒 = 31.25 + (3.57)
37
Li=31.25
𝑚𝑒 = 32.79
𝑑1
Moda: 𝑀𝑜𝑑𝑎 = 𝐿𝑖 + (𝐴𝑐)
𝑑1 + 𝑑2
Li=34.93 43 − 37
𝑀𝑜𝑑𝑎 = 34.93 + (3,57)
Ac=ancho de clase (43 − 37) + (43 − 24)
d1= fi-(fi-1) Moda=35.78
d2= fi-(fi+1)
11
Porcentaje usado en negocios
50
45
40
35
30
25
20
15
10
0
0.00 10.00 20.00 30.00 40.00 50.00 60.00 70.00
En esta gráfica se tiene representado el porcentaje de clientes que usa a la compañía para
hacer negocios. En el eje "x" se encuentra el ancho de clase de los porcentajes de uso de
negocios y en el eje "y" se encuentra sus respectivas frecuencias absolutas.
Existe una asimetría negativa con un valor de la media que ronda los intervalos 7 y 8 y su
valor es 32.72, la moda es 35.78 y la mediana de 32.79. Podemos observar que el 17% de
los clientes de esta compañía que la utilizan para sus negocios tienen en promedio 6.31 del
uso para negocios total. Se observa que los porcentajes mayores se encuentran en los
intervalos de clase que están al centro de la lista de frecuencias, dejando porcentajes
sumamente pequeños como de 3 % y 1% en los extremos inferior y superior
respectivamente.
Esto nos dice que la media se ve afectada por estos valores extremos, pero a pesar de eso,
al tener valores tan pequeños en los extremos no es muy importante esta alteración en la
media.
12
Análisis de la variable: Años usando nuestro servicio
Media: 2.69
𝑛
−(𝐹𝑖−1)
Mediana: 𝑚𝑒 = 𝐿𝑖 + 2
(Ac)
𝑛 250 𝑓𝑖
= 2 = 125 125 − 113
2
𝑚𝑒 = 2.64 + (0.22)
Li=2.64 39
𝑚𝑒 = 2.70
𝑑1
Moda: 𝑀𝑜𝑑𝑎 = 𝐿𝑖 + (𝐴𝑐)
𝑑1 + 𝑑2
Li=2.64 39 − 33
𝑀𝑜𝑑𝑎 = 2.64 + (0.22)
Ac=ancho de clase (39 − 33) + (39 − 37)
d1= fi-(fi-1) Moda=2.81
d2= fi-(fi+1)
13
Años usando el servicio
45
40
35
30
25
20
15
10
0
0.00 0.50 1.00 1.50 2.00 2.50 3.00 3.50 4.00 4.50 5.00
14
Análisis de la variable: Ingresos familiares
Media: 61.61
𝑛
−(𝐹𝑖−1)
Mediana: 𝑚𝑒 = 𝐿𝑖 + 2 (Ac)
𝑓𝑖
𝑛 250
= = 125 125 − 72
2 2 𝑚𝑒 = 56.77 + (4.35)
54
Li=56.77
𝑚𝑒 =61.04
𝑑1
Moda: 𝑀𝑜𝑑𝑎 = 𝐿𝑖 + (𝐴𝑐)
𝑑1 + 𝑑2
Li=56.77 54 − 25
𝑀𝑜𝑑𝑎 = 56.77 + (4.35)
Ac=ancho de clase (54 − 25) + (54 − 33)
d1= fi-(fi-1) Moda=59.29
d2= fi-(fi+1)
15
Ingresos familiares
60
50
40
30
20
10
0
0.00 10.00 20.00 30.00 40.00 50.00 60.00 70.00 80.00 90.00 100.00
En este polígono de frecuencias se ha analizado los ingresos de cada familia que es cliente
de la compañía telefónica. Tenemos en el eje "x" las marcas de clase y en el eje "y" sus
respectivas frecuencias absolutas.
Podemos ver que existe una moda de 59.29 una mediana de 61.04 y una media de 61.61.
Por lo tanto, decimos que está gráfica está distribuida con una simetría positiva. También
vemos que los ingresos familiares en los que se encuentra la moda constituyen un 22% del
total. Es decir, que el 22% de las familias reciben un ingreso que ronda entre los 56.77 y
los 61.12 mientras que por ejemplo un 7% de las familias reciben como ingreso a lo sumo
52.21. Sin embargo, hay varias familias que constituyen un mismo porcentaje de población
y reciben ingresos sumamente diferentes.
Por ejemplo, tenemos un 2% que recibe entre 34.50 y 38.56 y otro 2% de las familias
reciben entre 83.48 y 87.83 de ingresos.
16
Análisis de la variable: Propensión al abandono
Media: 41.56
𝑛
−(𝐹𝑖−1)
Mediana: 𝑚𝑒 = 𝐿𝑖 + 2 (Ac)
𝑓𝑖
𝑛 250
= = 125 125 − 136
2 2 𝑚𝑒 = 34.81 + (4.45)
52
Li=34.81
𝑚𝑒 = 33.86
𝑑1
Moda: 𝑀𝑜𝑑𝑎 = 𝐿𝑖 + (𝐴𝑐)
𝑑1 + 𝑑2
Li=34.81 52 − 45
𝑀𝑜𝑑𝑎 = 34.81 + (4.45)
Ac=ancho de clase (52 − 45) + (52 − 45)
d1= fi-(fi-1) Moda=37.04
d2= fi-(fi+1)
17
Propension al abandono
60
50
40
30
20
10
0
0.00 10.00 20.00 30.00 40.00 50.00 60.00 70.00 80.00 90.00
18
Relación: Minutos mensuales promedio(x) y Factura mensual promedio(y)
∑x ∑y X*Y x^2 Ŷi= βo+βiX (Ŷi-y̅)^2 (yi-y̅)^2 y^2 x̂i= βoo+βiiY ∑(x̂i-x̅)^2 ∑(xi-x̅)^2
40546.37 15849.09 2680183.02 7116063.21 15849.09 22280.32 97619.18 1102393.80 40546.37 123255.08 2537441.74
∑𝑥 40546.37 ∑𝑥 15849.09
𝑥̅ = = = 162.37 𝑦̅ = = = 63.40
𝑛 250 𝑛 250
Σ(ŷi − y̅ )2 Σ(𝑥̂i − 𝑥̅ )2
𝑟2 = = 0.23 𝑟2 = = 0.29
Σ(Yi − y̅ )2 Σ(Xi − 𝑥̅ )2
19
Recta de regression de Y sobre X
120.00
80.00
60.00
40.00
20.00
0.00
0.00 50.00 100.00 150.00 200.00 250.00 300.00 350.00
Minutos mensuales promedio
250.00
y = 1.1237x + 90.95
R² = 0.29
200.00
Minutos mensuales
150.00
100.00
50.00
0.00
0.00 20.00 40.00 60.00 80.00 100.00 120.00 140.00
Factura mensual
20
Análisis de los gráficos:
Descripción: En el primer diagrama tenemos horizontalmente en la base del grafico la
variable independiente o “X” que representa al promedio de minutos mensuales y
verticalmente la variable independiente o “Y” que nos indica el costo de la factura mensual.
También podemos observar que se trata del caso más simple de regresión lineal ya que
ajusta a la ecuación de la recta, los valores de la variable independiente X a la variable
dependiente Y, es decir que sigue este modelo: Y = mx + b, dando como resultado
Y = 0.23x + 30.45, donde m = 0.203 es la ordenada en el origen y B = 30.45 es la pendiente
de la recta.
El ajuste a esta ecuación se hizo mediante el método de rectas de regresión que se
caracteriza por la obtención de b0 es decir b, bi o sea m y el coeficiente de correlación de
Pearson r= 0.48 que como resulta ser mayor a cero (r > 0) la recta es positiva.
También r al ser elevada al cuadrado nos sirve para obtener el coeficiente de determinación
que en este caso nos dio R2= 0.23.
Análisis: En el diagrama se representa claramente, una relación positiva entre las dos
variables estudiadas, que se refleja en una nube de puntos cuyo eje principal tiene un
sentido creciente, como consecuencia del hecho de que, en términos generales, el costo
de la factura mensual es más alto en relación aumenta el número promedio de minutos
mensuales.
21
Relación: Porcentaje usado en negocios(x) y Años usando nuestro servicio(y)
∑x ∑y X*Y x^2 Ŷi= βo+βiX (Ŷi-y̅)^2 (yi-y̅)^2 y^2 x̂i= βoo+βiiY ∑(x̂i-x̅)^2 ∑(xi-x̅)^2
8171.20 669.90 22317.04 287539.16 669.90 8.68 90.85 82.17 1885.92 8171.20 1955.43
∑𝑥 81171.20 ∑𝑥 669.90
𝑥̅ = = = 32.68 𝑦̅ = = = 2.68
𝑛 250 𝑛 250
Σ(ŷi − y̅ )2 Σ(𝑥̂i − 𝑥̅ )2
𝑟2 = = 0.096 𝑟2 = = 0.095
Σ(Yi − y̅ )2 Σ(Xi − 𝑥̅ )2
22
Recta de regresión de Y sobre X
3.50
2.50
y = 0.0206x + 2.0064
2.00 R² = 0.096
1.50
1.00
0.50
0.00
0.00 10.00 20.00 30.00 40.00 50.00 60.00 70.00
Porcentaje usado en negocios
45
y = 4.6393x + 20.253
40
R² = 0.096
Porcentaje usado en negocios
35
30
25
20
15
10
5
0
0.00 1.00 2.00 3.00 4.00 5.00
Años usando nuestro servicio
23
Análisis de los gráficos:
Descripción: En el primer diagrama tenemos horizontalmente en la base del grafico la
variable independiente o “X” que representa al porcentaje usado en negocios y
verticalmente la variable independiente o “Y” que nos indica los años usando el servicio.
También podemos observar que se trata del caso más simple de regresión lineal ya que
ajusta a la ecuación de la recta, los valores de la variable independiente X a la variable
dependiente Y, es decir que sigue este modelo: Y = mx + b, dando como resultado
Y = 0.0206x + 2.0064, donde m = 0.0206 es la ordenada en el origen y B = 2.0064 es la
pendiente de la recta.
El ajuste a esta ecuación se hizo mediante el método de rectas de regresión que se
caracteriza por la obtención de b0 es decir b, bi o sea m y el coeficiente de correlación de
Pearson r= 0.31 que como resulta ser mayor a cero (r > 0) la recta es positiva.
También r al ser elevada al cuadrado nos sirve para obtener el coeficiente de determinación
que en este caso nos dio R2= 0.096.
Análisis: En el diagrama se representa claramente, una relación positiva entre las dos
variables estudiadas, que se refleja en una nube de puntos cuyo eje principal tiene un
sentido creciente, como consecuencia del hecho de que, en términos generales, entre más
años usamos el servicio más alto será el porcentaje usado en negocios.
24
Relación: Ingresos familiares (1998) (x) y Propensión al abandono (y)
∑x ∑y X*Y x^2 Ŷi= βo+βiX (Ŷi-y̅)^2 (yi-y̅)^2 y^2 x̂i= βoo+βiiY ∑(x̂i-x̅)^2 ∑(xi-x̅)^2
15397.47 10384.92 648367.6282 979095.9205 10384.92 2495.0 44206.62 475592.9 15397.47 1736.54 30767.6
∑𝑥 15397.47 ∑𝑥 10384.92
𝑥̅ = = = 61.59 𝑦̅ = = = 41.54
𝑛 250 𝑛 250
Σ(ŷi − y̅ )2 Σ(𝑥̂i − 𝑥̅ )2
𝑟2 = = 0.056 𝑟2 = = 0.056
Σ(Yi − y̅ )2 Σ(Xi − 𝑥̅ )2
25
Recta de regresion de Y sobre X
60
y = 0.2848x + 24.002
50 R² = 0.056
Propensión al abandono
40
30
20
10
0
0 20 40 60 80 100 120
Ingresos familiares
80
y = 0.1982x + 53.358
70
R² = 0.056
60
Ingresos familiares
50
40
30
20
10
0
0 10 20 30 40 50 60 70 80 90
Propensión al abandono
26
Análisis de los gráficos:
Descripción: En el primer diagrama tenemos horizontalmente en la base del grafico la
variable independiente o “X” que representa a los ingresos familiares y verticalmente la
variable independiente o “Y” que nos indica la propensión al abandono.
También podemos observar que se trata del caso más simple de regresión lineal ya que
ajusta a la ecuación de la recta, los valores de la variable independiente X a la variable
dependiente Y, es decir que sigue este modelo: Y = mx + b, dando como resultado Y=
0.2848x + 24.002, donde m = 0.2848 es la ordenada en el origen y B = 24.002 es la
pendiente de la recta.
El ajuste a esta ecuación se hizo mediante el método de rectas de regresión que se
caracteriza por la obtención de b0 es decir b, bi o sea m y el coeficiente de correlación de
Pearson r= 0.24 que como resulta ser mayor a cero (r > 0) la recta es positiva.
También r al ser elevada al cuadrado nos sirve para obtener el coeficiente de determinación
que en este caso nos dio R2= 0.056.
Análisis: En el diagrama se representa claramente, una relación positiva entre las dos
variables estudiadas, que se refleja en una nube de puntos cuyo eje principal tiene un
sentido creciente, como consecuencia del hecho de que, en términos generales, entre
mayor es el ingreso familiar más alto será la propensión al abandono.
27
Conclusión
Luego de haber realizado el anterior trabajo podemos decir que hemos sido capaces de
desarrollar las destrezas necesarias para utilizar las técnicas estadísticas adecuadamente
con lo cual cumplimos el objetivo planteado.
Organizamos los datos recolectados de la base de datos de tal manera que pudimos
analizarlos y categorizarlos para darle la sistematización en tablas y realizando los
respectivos cálculos estadísticos de tendencia central y dispersión para luego ser
analizados por medio de la regresión lineal pudiendo así dar las siguientes conclusiones:
Para los tres casos analizados los diagramas representaron claramente, una relación lineal
positiva entre las dos variables estudiadas, que se reflejó en una nube de puntos cuyo eje
principal tiene un sentido creciente, como consecuencia del hecho de que, en términos
generales, entre más aumento la variable Independiente mayor fue el aumento de la
variable dependiente y las rectas resultantes del análisis de regresión lineal fueron las
siguientes:
28