Вы находитесь на странице: 1из 62

ESTADSTICA

GENERAL

PROF: MANUEL ROJAS LEN


NDICE
Pgina

Introduccin 1

Captulo I. Distribuciones de Frecuencia

Captulo II. Medidas de Tendencia Central

Captulo III. Medidas de Dispersin

Captulo IV. Pronsticos. Anlisis de Correlacin y

Regresin Lineal

Captulo V. Teora de Probabilidad

Bibliografa

Anexo I

i
Introduccin

La palabra Estadstica est asociada a la recoleccin de datos, anlisis y


presentacin de los mismos, para obtener informacin

La estadstica se aplica a casi todas las actividades humanas:

Economa y Finanzas.
Demografa
Educacin
Agricultura
Medicina
Ingeniera
Industria y comercio

La idea detrs de los mtodos estadsticos de anlisis de datos, es hacer


inferencia acerca de una poblacin, a travs de estudiar una muestra
relativamente pequea extrada de la poblacin.

Para ilustrar lo anterior considere una mquina que elabora varillas de


acero. Diariamente una maquina corta en promedio 5000 varillas. Para
determinar si las varillas estn conformes a calidad, se mide, entre otros, el
dimetro. El ingeniero de control de calidad desea saber cuntas varillas
en un lote producido en un da estn conformes. No puede medir el
dimetro de las 5000 varillas, de tal manera que selecciona una muestra
de 50 varillas, tomadas al azar, para determinar cuntas estn conformes y
cuntas no. La estadstica nos proporciona mtodos para estimar el
porcentaje de varillas que posiblemente estn conformes, en el total del
lote de 5000 varillas producidas por da, determinando el porcentaje de
varillas que estn conformes en la muestra de 50 varillas. Esta medicin
podra llevar al ingeniero de control de calidad tomar decisiones como
ordenar una recalibracin de la maquina o a seguir el proceso
normalmente. Lo anterior depender de si el porcentaje de varillas no
conformes producidas en la muestra, supera cierto lmite.

La estadstica se ocupa de los mtodos y procedimientos para recoger,


clasificar, resumir, hallar regularidades y analizar datos (siempre y cuando

ii
la variabilidad e incertidumbre sea una causa intrnseca de los mismos);
as como de realizar inferencias a partir de ellos, con la finalidad de ayudar
en la toma de decisiones y en su momento formular predicciones.

La estadstica est conformada por dos ramas:

La estadstica descriptica
La estadstica inferencial

La estadstica descriptica analiza y representa grupos de datos utilizando


mtodos numricos y grficos que resumen y presentan le informacin
contenida en dichos datos

La estadstica inferencial utiliza el clculo de probabilidades y datos


muestrales para efectuar estimaciones, predicciones y orientar en la toma
de decisiones y sacar conclusiones acerca de una poblacin.

Poblacin. Es la coleccin completa de todos los objetos o elementos que


se estn estudiando. Los mtodos estadsticos buscan presentar
conclusiones acerca de la poblacin y se debe definir claramente que
elementos constituyen a la poblacin.

Muestra. Por razones de tiempo o de costo, se estudia una muestra de la


poblacin. Una muestra es un subconjunto de la poblacin, o algunos de
los objetos u observaciones de la poblacin. Las muestras se estudian
para describir a las poblaciones. Una muestra es representativa cuando
contiene las caractersticas relevantes de la poblacin a la cual pertenece
y en las mismas proporciones.

Parmetro. Es una descripcin numrica caracterstica o propia de la


poblacin.

Estadstico. Es una descripcin numrica caracterstica o propia de la


muestra.

El proceso de aplicacin de los mtodos estadsticos implica una serie de


pasos:
1. Seleccin y determinacin de la poblacin o muestra y las
caractersticas contenidas que se desean estudiar. En el caso de
iii
que se desee tomar una muestra, es necesario determinar el tamao
de la misma y el tipo de muestreo a realizar (probabilstico o no
probabilstico).
2. Obtencin de los datos. Esto puede ser realizado mediante la
observacin directa de los elementos, la aplicacin de encuestas y
entrevistas, y la realizacin de experimentos.
3. Clasificacin, tabulacin y organizacin de los datos. La clasificacin
incluye el tratamiento de los datos considerados anmalos que
pueden en un momento dado, falsear un anlisis de los indicadores
estadsticos. La tabulacin implica el resumen de los datos en tablas
y grficos estadsticos.
4. Anlisis descriptivo de los datos. El anlisis se complementa con la
obtencin de indicadores estadsticos como las medidas de
tendencia central, dispersin, posicin y forma.
5. Anlisis inferencial de los datos. Se aplican tcnicas de tratamiento
de datos que involucran elementos probabilsticos que permiten
inferir conclusiones de una muestra hacia la poblacin (opcional).
6. Elaboracin de conclusiones. Se construye el informe final

iv
Captulo I

Distribuciones de Frecuencia.

Los datos son colecciones de observaciones relacionadas. Cuando se


tiene un conjunto de datos muy grande es difcil ver tendencias. Por ello
debemos ordenarlos y organizarlos para formar lo que se denomina una
distribucin de frecuencias.

Distribucin de frecuencias.

Una manera de ordenar y organizar los datos es separarlos y agruparlos


en categoras o clases y luego contar el nmero de observaciones
contenidas en cada clase. Una tabla en la cual un conjunto de datos
quedan agrupados en clases o intervalos y en la cual se indica el nmero o
frecuencia de datos presente en el correspondiente intervalo, se denomina
tabla de distribucin de frecuencias.

Las clases o intervalos de clase los podemos escoger dividiendo el rango


en un nmero conveniente de clases o intervalos. El rango de los datos es
la diferencia entre el dato de mayor valor y el dato de menor valor. No hay
ninguna regla fija que nos indique cuantas clases debemos seleccionar
para formar una distribucin de frecuencias.

Ejemplo. Dado el siguiente conjunto de datos, agrpelos en una tabla de


tabla de distribucin de frecuencias.

Tabla 1
1 35 14 7 17
23 21 13 39 20
25 4 13 9 2
27 5 32 36 18
12 31 11 8 15
Nota. Los datos presentados en la forma como en la tabla anterior se
denominan: datos no agrupados.

Rellene la tabla siguiente

1
Tabla 2. Distribucin de frecuencias

Clase o Intervalo Frecuencia

Las tablas de distribucin de frecuencias no son nicas ya que elaborar


una tabla de distribucin de frecuencias depende del nmero de clases
seleccionado.

Ejercicio. Agrupe los datos de la tabla 1 en cinco intervalos de clase

Los datos presentados en una tabla de distribucin de frecuencias se


denominan: datos agrupados.

Lmite o extremo inferior del intervalo. Es el menor nmero que puede


pertenecer a la clase.

Lmite o extremo superior del intervalo. Es el mayor nmero que puede


pertenecer a la clase.

Ancho o rango de la clase. Es la diferencia entre dos lmites superiores


(o inferiores) de dos clases consecutivas.

Rango. Es la diferencia entre el mximo y el mnimo valor del conjunto de


datos

Punto medio o marca de clase. Se determina sumando el lmite inferior


del intervalo y el lmite inferior del intervalo, dividido entre dos
+
=
2

2
Frecuencia Acumulada de clase. Esta se obtiene sumando a la
frecuencia de una cierta clase las frecuencias de las clases anteriores.

Frecuencia Relativa de una clase. Se obtiene dividiendo la frecuencia de


una clase entre la suma de todas las frecuencias

=

Frecuencia Acumulada Relativa de una clase. Se obtiene dividiendo la


frecuencia acumulada de clase entre la suma de las frecuencias. Esta
cantidad se puede expresar porcentualmente multiplicndola por 100.

=

Ejercicio. Para los datos la tabla 1, complete la siguiente tabla de


distribucin frecuencia.

Tabla 3. Distribucin de frecuencias


Clase o Punto Frecuencia Frecuencia Frecuencia Frecuencia
Intervalo medio Acumulada Relativa Acumulada
Relativa

Grficos de Distribucin de Frecuencias.

Entre estos encontramos:

Histograma de frecuencia e Histograma de frecuencia relativa


Ojiva o Diagrama de frecuencia acumulada

3
Histograma de frecuencia. Este es un diagrama de barras, donde las
barras consecutivas estn en contacto.

En el eje horizontal se colocan los extremos superiores de clase.

En el eje vertical se colocan las frecuencias de clase.

Las barras se levantan con altura igual a la frecuencia de clase.

El Histograma de frecuencia relativa se construye de modo igual a la


indicada anteriormente

Ejercicio. Para la Tabla 3 de distribucin de frecuencias elabore el


correspondiente histograma.

Ojiva o Grfico de Frecuencia Acumulada

Este es un grfico de lnea que representa la frecuencia acumulada de


cada clase en su correspondiente lmite superior. El extremo superior de
clase se marca en el eje horizontal y la frecuencia acumulada el eje vertical
Tambin puede usarse la frecuencia acumulada relativa

Ejemplo. En la grfica siguiente se representa la ojiva correspondiente a la


tabla de distribucin de frecuencias dada a continuacin

Tabla 4. Distribucin de frecuencias


Clase o Frecuencia Frecuencia Frecuencia
Intervalo Acumulada Acumulada
Relativa
0 100 5 5 0.1429
101 200 15 20 0.5714
201 300 10 30 0.8571
301 400 5 35 1.0000

4
La siguiente es la ojiva de la anterior tabla de distribucin frecuencia

Ojiva
40
35
Frecuencia Acumulada

30
25
20
15
10
5
0
0 50 100 150 200 250 300 350 400 450
Extremo Superior

Ejercicio. Elabore la ojiva para la Tabla 3 de distribucin de frecuencias

Prctica.

1. El siguiente conjunto de datos, corresponde a los pesos (redondeados


en libras) de nios nacidos en cierto periodo de tiempo. Para dichos
datos construya una tabla de distribucin de frecuencias y tabule en la
misma: a) el punto medio de cada clase, b) La frecuencia acumulada
relativa. C) Elabore un histograma

4 8 4 6 8 6 7 7 7 8 10 9 7 6 10 8 8
5 9 6 3 7 6 4 7 6 9 7 4 7 6 8 8 9
11 8 7 10 8 5 7 7 6 5 10 8 9 7 5 6 5

2. La siguiente tabla muestra la segmentacin por edad y sexo y


estatus laboral de un grupo de personas que acuden a un cierto
centro de atencin de salud en cierta semana: a) Determine la
frecuencia acumulada relativa. c) Elabore el histograma.

5
Trabajadores No Trabajadores

Edad Hombre Mujer Hombre Mujer

14-19 2 1 2 3

19-24 10 4 8 7

24-29 32 10 11 9

29-34 47 12 13 34

34-39 38 8 10 25

39-44 22 7 7 18

3. Complete la siguiente tabla de distribucin de frecuencias.

Intervalo Frecuencia Frecuencia Frecuencia Frecuencia


Absoluta Relativa Acumulada Acumulada Relativa

1 10 __ 0.05 25 __

11 20 __ 0.25 __ __

21 30 150 __ 300 __

31 40 __ 0.10 __ __

41 50 __ __ 500 __

6
Medidas de Posicin

Estas medidas se usan para indicar el lugar que ocupa un dato especfico
dentro del conjunto de datos cuando este est ordenado. Los Cuantiles los
denotaremos donde P es un porcentaje. El Cuantil es un valor tal
que, un porcentaje P de los datos caen debajo de dicho valor. Por ejemplo
debajo de 25% cae un 25% de los datos.

Algunos de los Cuantiles ms usados son:

Cuartiles
Deciles
Percentiles

La posicin o lugar que ocupa un Cuantil en el conjunto de datos cuando


este est ordenado, se determina mediante:
( + 1)
=
100
Donde P es el porcentaje del Cuantil y n es el nmero de datos. En el caso
en que el resultado de la frmula anterior sea un nmero no entero, el
valor del Cuantil lo obtenemos tomando un promedio entre los datos en las
posiciones ms cercanas al resultado ante dicho.

Ejemplo. Qu posicin ocupa el Cuantil 50% en un conjunto de 45 datos?


(50)(45 + 1)
= =
100
Mediana.

La mediana es una medida de posicin pero tambin se la usa como una


medida de tendencia central. La mediana divide el conjunto de datos en
dos subconjuntos de igual tamao cuando el conjunto de los datos est
ordenado. La mediana se denota 50%

La posicin de la mediana en el conjunto de datos ordenado, viene dado


por

7
50( + 1) +1
= =
100 2
Donde n es el nmero de datos.

La mediana se determina efectuando los pasos siguientes:

Ordene el conjunto de datos


Determine la posicin de la mediana
Caso un nmero impar de datos. La mediana es el valor central
Caso un nmero par de datos. La mediana es el valor que se obtiene
efectuando la suma de los dos valores centrales dividida entre dos.

Ejemplo. Determine la mediana del conjunto de datos

11 15 11 17 12
13 18 13 11

Ejemplo. Determine la mediana del conjunto de datos

11 15 10 17 12
13 18 14 11 15

La mediana tiene la ventaja de no estar afectada por las observaciones


extremas, ya que no depende de los valores que toma la variable, sino del
orden de las mismas.
Para el clculo de la mediana interesa que los valores estn ordenados de
menor a mayor.
Su aplicacin se ve limitada, ya que solo considera el orden jerrquico de
los datos y no alguna propiedad propia de los datos, como en el caso de la
media aritmtica.

Cuartiles

Estos son tres valores que dividen el conjunto de datos ordenado en cuatro
subconjuntos de igual tamao. Estos se denotan: 25% , 50% , 75% .

Procedimiento para determinar los cuartiles.

8
Mtodo de la Posicin. Segn este mtodo aplicamos la formula dada
anteriormente para determinar primero la posicin del cuartil y luego su
correspondiente valor

Ejemplo. Determine los cuartiles para el conjunto de datos

10 25 39 37
15 10 30

Ordene los Datos en la tabla siguiente


Posicin
Datos

Cuartil Posicin Valor


% (25)(7 + 1)
=
100
% (50)(7 + 1)
=
100
% (75)(7 + 1)
=
100

Ejemplo. Determine los cuartiles para el conjunto de datos

10 25 39 37
15 10 30 41

Ordene los Datos en la tabla siguiente


Posicin
Datos

9
Cuartil Posicin Valor
% (25)(8 + 1)
=
100
% (50)(8 + 1)
=
100
% (75)(8 + 1)
=
100

Rango Intercuartilico (RIC). Es una medida de la dispersin del 50% de


los datos centrales. Este se define mediante

= 75% 25%

Promedio Inter cuartlico. Es una medida de tendencia central y se define


mediante haba
25% + 75%
=
2
El promedio cuartlico. Esta medida de tendencia central y se define
mediante
25% + 50% + 75%
=
3
Deciles

Estos Cuantiles son 10% , 20% , . , 80% , 90% . Su valor se encuentra de


igual modo que los cuartiles.

Percentiles

Estos Cuantiles son 1% , 2% , . , 98% , 99% . Su valor se encuentra de


igual modo que los cuartiles.

Practica. Medidas de Posicin

1. La siguiente tabla de las cifras de mortalidad infantil por cada 1000


nacimientos, de un grupo de pases seleccionados al azar de la
10
lista World Fact 2009. Determine: a) los cuartiles, b) el rango inter
cuartilico, c) los Cuantiles 15% , 95%
151.95 180.21 13.79 15.25 23.07
9.10 17.87 63.34 98.69 18.09
15.96 49.45 12.70 45.36 5.35

2. Los datos siguientes corresponden a la medicin de la resistencia a la


compresin que presentan cada uno de los setenta cilindros de
concreto preparados usando la misma mezcla. Determine: a) los
cuartiles, b) los Cuantiles 10% , 35% , 60% , 90% .

3052 3128 3125 2881


2911 3027 2942 3042
2965 2886 3238 2965
3193 3298 2782 3201
2832 3059 3017 3001
2944 2968 2998 3275
3003 2875 2808 2973
2903 2957 2899 2884
3061 3085 3072 3115
3169 3152 3251 2702

11
Captulo II

Medidas de Tendencia Central

Una medida de tendencia central es un dato tpico o caracterstico del


conjunto de datos.

Entre estos estadsticos tenemos:

La moda
La mediana
La media o promedio: Aritmtica, Ponderada, Cuadrtica, Armnica,
Geomtrica

Moda.

Es aquel (o aquellos) dato(s) que presenta(n) la mxima frecuencia. En un


conjunto de datos puede haber una o ms modas. Tambin podemos tener
un conjunto de datos que no tiene moda y esto se da cuando todos los
datos tienen la misma frecuencia.

Ejemplo. Caso una moda. Determine la moda

11 15 11 17 12
13 18 13 11 15

Ejemplo. Caso varias modas. Determine la moda

11 15 10 17 12
13 18 13 11 15

Ventajas de la moda
Es estable a los valores extremos.
Es recomendable para el tratamiento de variables cualitativas.
Desventajas de la moda
Pueda que no se presente en un conjunto de datos.
Puede existir ms de una moda.
En distribuciones muy asimtricas suele ser un dato muy poco
representativo.
12
Carece de rigor matemtico.

Prctica.
1. Para los datos dados siguientes determine la moda
4 8 4 6 8 6 7 7 7 8 10 9 7 6 10 8 8
5 9 6 3 7 6 4 7 6 9 7 4 7 6 8 8 9
11 8 7 10 8 5 7 7 6 5 10 8 9 7 5 6 5

Media Aritmtica o Promedio

Esta importante medida se calcula para datos no agrupados mediante

Significado Smbolos
Media Aritmtica o Promedio
=

Suma de todos los datos
Nmero de datos n

Ejemplo. Por razn de su trabajo Andrs realiza diariamente un cierto


nmero de llamadas. Para comprar un plan decide registrar los minutos
que habla por da en las llamadas efectuadas. Determine cuantos minutos
en promedio por da consume Andrs en llamadas.

Semana Lunes Martes Mircoles Jueves Viernes


1 11 15 11 17 12
2 13 18 13 11 10
3 19 22 8 16 25
4 10 16 23 20 19

Media Ponderada o Promedio Ponderado.

Es frecuente encontrar conjuntos de datos en los cuales algunos datos


tienen ms efecto o peso sobre el valor de la media. Para tomar lo anterior
en cuenta, se le puede asignar a cada dato x un peso o ponderacin w. El
promedio ponderado se define.

13
Significado Smbolo
Media Ponderada
=

Suma de multiplicacin de datos
por su peso
Suma de los pesos

Ejemplo. Las siguientes son las notas obtenidas por cierto estudiante en la
materia informtica y la ponderacin asignada. Determine la nota definitiva

Evaluacin Nota Ponderacin xw


(x) (%)
(w)
Parciales 13 50
Talleres 17 15
Examen Final 08 20
Laboratorio 15 10
Trabajo 20 5
Suma = =

Promedio ponderado para datos agrupados Para datos agrupado en


una tabla de distribucin de frecuencias sustituimos el peso w por la
frecuencia f.
Significado Smbolo
Media Ponderada
=

Suma de multiplicacin de cada dato
por su frecuencia
Suma de las frecuencias
Frecuencia f
Punto medio x

14
Ejemplo. La siguiente tabla presenta las calificaciones obtenidas por unos
estudiantes en el curso de matemtica. Determine el promedio de notas

Intervalo de Nmero de Punto Medio xf


Notas Estudiantes (x)
(f)
15 6
69 8
10 13 12
14 16 7
17 20 2
Sumas

Codificacin para el clculo de la media ponderada


Un mtodo para simplificar los clculos de la media ponderada consiste en
sustituir los puntos medios por nmeros enteros consecutivos. Este
mtodo parte de suponer que los correspondientes intervalos tienen el
mismo ancho.
Si ordenamos los puntos medios de acuerdo a la clase a la que
pertenecen, podemos seleccionar uno de ello y asignarle un cdigo 0. A
los puntos medios precedentes les asignamos nmeros enteros negativos
consecutivos y a los puntos medios subsiguientes les asignamos nmeros
enteros positivos consecutivos.
En la tabla siguiente se da la frmula para el clculo del promedio
ponderado codificado.

Significado Smbolo
Media Ponderada
= 0 +

Punto medio al cual se le asigno 0
el cdigo 0
Ancho de las clases

Cdigo asignado a los puntos


medios

15
Ejemplo. La siguiente tabla presenta las calificaciones obtenidas por unos
estudiantes en el curso de matemtica. Determine el promedio de notas

Intervalo de Nmero de Punto Codigo uf


Notas Estudiantes Medio (u)
(f) (x)
15 6
6 10 8
11 15 12
16 20 7
Sumas

Ventajas de la media aritmtica


Es la medida de tendencia central ms usada.
El promedio es estable en el muestreo.
Es sensible a cualquier cambio en los datos (puede ser usado para
determinar variaciones en los datos).
Presenta rigor matemtico.
En tabla de frecuencia, representa el centro de gravedad.
Desventajas de la media aritmtica
Es sensible a los valores extremos.
Si se emplean variables discretas, la media aritmtica puede no
pertenecer al conjunto de valores de la variable.
No es recomendable emplear la media aritmetica en distribuciones muy
asimtricas.

Prctica. Medidas de Tendencia Central.


1. En la tabla siguiente se dan los resultados obtenidos con una
muestra del tiempo de reaccin (segundos) ante un estimulo auditivo
a 50 universitarios. Determine el tiempo de reaccin promedio

0,110 0,110 0,126 0,112 0,117 0,113 0,135 0,107 0,122


0,124 0,118 0,132 0,108 0,115 0,120 0,107 0,123 0,109
0,117 0,111 0,112 0,101 0,112 0,111 0,119 0,103 0,100

16
2. En la tabla siguiente de indica el registro de las personas que acuden
a un cierto centro de atencin de salud en cierta semana. Determine
el promedio del nmero de personas que por categora acuden a
dicho centro de salud.
Trabajadores No Trabajadores

Edad Hombre Mujer Hombre Mujer

14-19 2 1 2 3

19-24 10 4 8 7

24-29 32 10 11 9

29-34 47 12 13 34

34-39 38 8 10 25

39-44 22 7 7 18

3. En cierto instituto educativo se efectu una encuesta de edad y en la


tabla siguiente se da el resultado. Determine la edad promedio,
elabore un histograma

Nmero de 170 150 310 280 180


Estudiantes
Edad 16 17 18 19 20
Nmero de 260 170 140 90 70
Estudiantes
Edad 21 22 23 24 25

4. La siguiente tabla presenta las notas obtenidas por cierto estudiante


en la carrera de Administracin y el nmero de crditos de cada
materia. Determine el promedio de notas

17
Materia Nota Crdito Materia Nota Crdito
Matemtica 10 6 Estadstica 11 4
I
Matemtica 12 6 Administracin 16 4
II
Informtica 14 3 Ingles 17 2

5. Complete la siguiente tabla de distribucin de frecuencias y


determina: a) la media ponderada.

Intervalo Frecuencia Frecuencia Frecuencia Frecuencia


Absoluta Relativa Acumulada Acumulada Relativa

1 10 60 __ 60 __

11 20 __ 0.4 __ __

21 30 30 __ 170 __

31 40 __ 0.1 __ __

41 50 __ __ 200 __

18
Otras Medidas de Tendencia Central.

Tambin se usan como medidas de tendencia central: la media cuadrtica,


armnica, y geomtrica.

Media Cuadrtica. Como veremos ms adelante esta media se usa para


determinar una medida de dispersin, conocida como desviacin estndar
o tpica.

En la tabla siguiente se da la definicin de media cuadrtica.

Media Datos no agrupados Datos Agrupados en


Tabla de Frecuencia
Cuadrtica
2 2
= =

Ejemplo. Determine la media cuadrtica del siguiente conjunto de datos no


agrupados

x 2 9 6 5 1 7 2
2

Ejemplo. Para la tabla de las calificaciones obtenidas por unos estudiantes


en el curso de matemtica. Determine la media cuadrtica

Intervalo de Nmero de Punto Medio


Notas Estudiantes (x)
(f)
15 6
69 8
10 13 12
14 16 7
17 20 2
Suma 2

19
Media Geomtrica. Cuando se trabaja con cantidades que varan con el
tiempo, podramos estar interesados en la tasa promedio de variacin de
dicha cantidad. En este caso la media geomtrica resulta adecuada para
determinar dicha tasa promedio de variacin de dicha cantidad.

Considere como ejemplo el caso de tener colocada una cierta cantidad de


dinero en una cuenta de ahorro. Suponga que la tasa de inters anual ha
cambiado de ao a ao a lo largo de cinco aos: 10%, 7%, 8%, 12% y 9%.

En la tabla siguiente se da la definicin de media geomtrica.

Media Datos no agrupados Datos Agrupados en


Tabla de Frecuencia
Geomtrica
= =

Ejemplo. Determine la media armnica del siguiente conjunto de los


factores de crecimiento de las tasas de inters dadas anteriormente.

Media Armnica.

En la tabla siguiente se da la definicin de media armnica.

Media Datos no agrupados Datos Agrupados en


Tabla de Frecuencia
Armnica
= =
1

Ejemplo. Determine la media armnica del siguiente conjunto de datos no


agrupados

x 7 9 4 3 5 1 7 2
1

20
Ejemplo. Para la tabla de las calificaciones obtenidas por unos estudiantes
en el curso de matemtica. Determine la media armnica

Intervalo de Nmero de Punto Medio


Notas Estudiantes (x)
(f)
15 6
69 8
10 13 12
14 16 7
17 20 2
Suma

Practica. Otras Medidas de Tendencia Central.

1. En la tabla siguiente se dan los resultados obtenidos con una


muestra del tiempo de reaccin (segundos) ante un estimulo
auditivo a 50 universitarios. Determine: la media cuadrtica
0,110 0,110 0,126 0,112 0,117 0,113 0,135 0,107 0,122
0,124 0,118 0,132 0,108 0,115 0,120 0,107 0,123 0,109
0,117 0,111 0,112 0,101 0,112 0,111 0,119 0,103 0,100

2. Complete la siguiente tabla de distribucin de frecuencias y


determina: a) la media cuadrtica y armnica

Intervalo Frecuencia Frecuencia Frecuencia Frecuencia


Absoluta Relativa Acumulada Acumulada Relativa

1 10 __ 0.25 50 __

11 20 __ 0.40 __ __

21 30 30 __ __ __

31 40 __ 0.10 __ __

41 50 __ __ 200 __

21
Captulo III

Medidas de Dispersin

Estas medidas nos indican el grado de variabilidad o dispersin o tambin


en qu medida los datos estn concentrados o dispersos respecto a algn
valor central.

Las medidas de dispersin son tiles porque:


Nos proporcionan informacin adicional que nos permite juzgar la
confiabilidad de nuestra medida de tendencia central. Si los datos
estn muy dispersos, la medida central es menos representativa de
los datos, como un todo, que cuando estos se agrupan ms
estrechamente alrededor de la media.
Nos permiten comparar varias muestras con promedios parecidos
Ya que existen problemas caractersticos de distribuciones muy
dispersas, debemos ser capaces de distinguir que ocasiona esa
dispersin antes de abordar los problemas.

Como ejemplo los expertos en control de calidad, analizan ciertos


parmetros de un producto y determinan si los niveles medidos de dichos
parmetros presentan mucha dispersin o no con lo cual establecen si los
productos estn conforme a los requerimientos de calidad.
Otro ejemplo es el caso de analistas financieros que pudieran estar
preocupados por la dispersin de las ganancias de una empresa, que van
desde valores muy grandes a valores negativos. Esto indica un riesgo
mayor para los accionistas y para los acreedores.
Entre estas medidas tenemos:
El rango, recorrido a amplitud
La desviacin respecto a algn valor central
La media de la desviacin absoluta
La varianza
La desviacin tpica o estndar

Para ilustrar en qu consisten estas medidas de dispersin, considere el


ejemplo siguiente

Ejemplo. En el deporte Tiro con Arco, el blanco est conformado por cinco
crculos concntricos. Clavar una flecha en el crculo ms externo da un

22
punto; clavarla en el crculo mas interno da cinco puntos. Las siguientes
tablas dan la puntuacin obtenida por dos arqueros. Represntelos
grficamente. Cul de estos dos conjuntos de disparos est ms
concentrado alrededor de su correspondiente promedio?

Arquero A Arquero B
1 1 2 3
4 5 3 4
5 1 3 2
2 5 2 3
1 4 2 3
1 1 3 2
2 2 2 2
4 3

Desviacin respecto al Promedio.

La Desviacin respecto al Promedio es un valor que sirve de base para el


clculo de algunas medidas de dispersin. Este valor se define como la
diferencia entre un cierto dato y algn valor central. Usualmente se toma
como valor central al promedio.

Datos no agrupados Datos Agrupados en Tabla de


distribucin de frecuencias

( )
X: dato X: punto medio
f: frecuencia

Se usa la notacin | | para representar el valor absoluto de la


desviacin respecto al promedio y significa tomar el valor positivo.

23
Media de la Desviacin Absoluta respecto al Promedio.

Esta medida se define como la suma del valor absoluto de la diferencia


entre un cierto dato y el promedio divido entre el nmero de datos.

Datos no agrupados Tabla de distribucin de


frecuencias
|
| | |
=
=


n: nmero de datos f: frecuencia

Ejemplo. Para los datos dados en la tabla siguiente determine la media de


desviacin absoluta
X 11 13 16 17 18 15 | |
| |

Ejemplo. En la siguiente tabla se dan las notas que obtuvieron los


estudiantes que cursaron la materia Estadstica. Determine la media de la
desviacin absoluta.

Intervalo de Nmero de Punto Medio |


|
Notas Estudiantes (x)
Estadstica (f)
15 6
69 8
10 13 12
14 16 7
Suma = | | =

La Varianza.

Esta importante medida de dispersin se define mediante

24
Datos no agrupados Datos Agrupados
Tabla de distribucin de
Frecuencias

)
( 2
( )2
= =
1

La varianza nos da una medida de cul es la distancia al cuadrado


promedio en que estn alejados los datos de la media. La varianza no
tiene las mismas unidades que los datos.

La Desviacin Estndar o Tpica

Esta medida de dispersin se prefiere a la varianza ya que tiene las


mismas unidades que los datos y nos indica cul es la distancia promedio
en que estn alejados los datos de la media.

Datos no agrupados Datos Agrupados


Tabla de distribucin de
frecuencias
)
( ( )2
= =
1

Ejemplo. Determine la desviacin estndar para los datos de la tabla


siguiente.

)
(
7
4
3
6

Es ms conveniente realizar los clculos de la desviacin estndar con las


siguientes formulas, las cuales no requieren calcular el promedio, y las
cuales se derivan de las dadas anteriormente

25
Datos No Agrupados Datos Agrupados
Tabla de distribucin de
frecuencias

( ) ( )2
2
=
=
1

Ejercicio. Determine la desviacin estndar para cada arquero y determine


cual presenta ms dispersin en su juego

Arquero A Arquero B
2
x x 2
1 2
4 3
5 3
2 2
1 2
1 3
2 2
4 3
1 3
5 4
1 2
5 3
4 3
1 2
2 2

Ejemplo. En la siguiente tabla se dan las notas que obtuvieron los


estudiantes que cursaron la materia matemtica. Determine la desviacin
estndar.

26
Intervalo de Notas Nmero de Punto Medio xf
Matemtica Estudiantes (x)
(f)
15 8
69 11
10 13 9
14 16 7
17 20 1
Suma = = 2 =

Interpretacin de la desviacin estndar. La desviacin tpica aumenta con


el aumento de la dispersin de los datos respecto a su promedio. Esto se
ilustra en el ejercicio siguiente.

Ejercicio. Determine la desviacin estndar para cada uno de los grficos


siguientes.

12

10

0
1 2 3 4 5 6 7 8 9 10
Promedio = 5
s=0

27
Grfico A
Punto Frecuencia xf 2
(x) (f)

= 2 =

4.5

3.5

2.5

1.5

0.5

0
1 2 3 4 5 6 7 8 9 10
Promedio = 5
s = 1.155

Grfico B
Punto Frecuencia xf 2
(x) (f)

= 2 =

28
4.5
4
3.5
3
2.5
2
1.5
1
0.5
0
1 2 3 4 5 6 7 8 9 10
Promedio = 5
s= 2.981

Grfico C
Punto Frecuencia xf 2
(x) (f)

= 2 =

Ejemplo. En la siguiente tabla se dan las notas que obtuvieron los


estudiantes que cursaron la materia matemtica. Determine la desviacin
estndar.

Intervalo de Nmero de Punto Xf


Notas Estudiantes Medio
Matemtica (f) (x)
15 8
69 11
10 13 9
14 16 7
17 20 1
Suma = = 2 =

29
Coeficiente de Variacin.

El coeficiente de variacin permite comparar la dispersin entre dos


poblaciones distintas e incluso, comparar la variacin de dos variables
diferentes (que pueden provenir de una misma poblacin). Estas variables
podran tener unidades diferentes, por ejemplo, podremos determinar si los
datos tomados al medir el volumen de llenado de un embase varan ms
que los datos tomados al medir la temperatura de el liquido contenido en el
embase al salir al consumidor. El volumen los mediremos en centmetros
cbicos y la temperatura en grados centgrados
El coeficiente de variacin se define mediante

= 100

Donde s es la desviacin estndar y es el promedio o la media. Este
ndice tiene utilidad si el mismo se calcula para conjuntos de datos
positivos.

Prctica. Medidas de Dispersin.

1. Un grupo de 16 estudiantes midieron, cada uno, la circunferencia de


una pelota de tenis mediante cuatro mtodos. Seguidamente se dan
los resultados de la medicin en centmetros. Determine cul de los
mtodos es ms preciso
a) Estimacin de la circunferencia a simple vista

18.0 18.0 22.0 22.5


26.4 24.0 25.0 25.0
18.0 20.0 22.0 23.0
24.0 25.0 25.0 26.0

b) Se mide el dimetro con una regla y despus se calcula la


circunferencia

18.8 18.9 20.1 20.4


20.4 21.2 22.0 22.0
18.9 19.6 20.4 20.4
20.5 22.0 22.0 23.6

30
c) Se mide la circunferencia con una cuerda y una regla

20.2 20.5 20.8 21.0


21.0 21.0 21.5 21.5
20.5 20.7 20.9 21.0
21.0 21.5 21.5 21.6

d) Se mide la circunferencia rodndola sobre una regla

20.0 20.0 20.2 20.5


20.7 21.0 21.5 22.1
20.0 20.0 20.5 20.7
20.7 21.1 21.6 22.3

2. Un club de Golf debe seleccionar a un jugador entre cinco, para que


compita en un cierto campeonato anual. Para ello se efectan diez
pruebas. En la tabla siguiente se dan el nmero de Golpes dados
por cada jugador en cada una de las diez pruebas. Determine a cual
jugador se podra enviar al campeonato. Utilice el coeficiente de
variacin.
Pedro Luis Andrs Carlos Juan
83 93 95 82 99
90 92 93 97 91
95 89 84 96 84
99 87 87 88 90
85 88 88 85 86
89 89 93 90 84
90 87 89 89 92
91 84 92 87 91
87 95 91 91 89
85 90 86 86 86

3. La siguiente tabla muestra la segmentacin por edad y sexo y


condicin laboral a un grupo de personas que acuden a un cierto

31
centro de atencin de salud en cierta semana. Determine el
coeficiente de variacin.
Trabajadores No Trabajadores

Edad Hombre Mujer Hombre Mujer

14-19 2 1 2 3

19-24 10 4 8 7

24-29 32 10 11 9

29-34 47 12 13 34

34-39 38 8 10 25

39-44 22 7 7 18

4. Una cierta escuela debe seleccionar a una seccin de 9no grado,


entre cuatro, para que represente a la escuela en la olimpiada anual
de matemtica. Para ello se aplic una prueba de matemtica a las
cuatro secciones. La siguiente tabla indica el nmero de estudiantes
en cada intervalo de notas y por cada seccin. Indique a cual seccin
podra escogerse para la olimpiada anual de matemtica. Use el
coeficiente de variacin.

Intervalo de Notas Seccin


A B C D
0 5 5 5 5 3
6 9 7 5 7 6
10 12 7 11 7 12
13 15 8 5 6 7
16 18 3 3 4 0
19 20 0 1 1 2

5. Para los siguientes histogramas determine la desviacin estndar


32
160
140
120
100
Frecuencia

80
60
40
20
0
24 25 26 27 28 29 30 31 32 33 34
Datos

100
90
80
70
Frecuencia

60
50
40
30
20
10
0
24 25 26 27 28 29 30 31 32 33 34
Datos

33
140

120

100
Frecuencia

80

60

40

20

0
24 25 26 27 28 29 30 31 32 33 34
Datos

6. En un cierto proceso industrial se elaboran varillas de aluminio, con


una maquina que produce unas 3000 varillas por da. Para evaluar
que las varillas estn conformes en cuanto a la longitud, se mide la
longitud de aquellas. La maquina hay que detenerla y calibrarla si las
varillas no salen conformes en cuanto a la longitud, lo cual sucede si
la desviacin estndar de la mediada diaria de la longitud es mayor a
0.1778. La siguiente tabla da las medidas de la longitud de las varillas
de aluminio en cinco das de la semana. En cuales das se debi
detener la mquina para calibrarla?

Intervalo de Lunes Martes Mircoles Jueves Viernes


Longitud de las
Varillas
49.00 49.05 7 5 5 4 3
49.06 49.09 13 10 9 15 8
50.00 50.02 7 15 16 12 14
50.03 50.05 13 18 12 11 15
50.06 50.08 11 3 17 13 12
50.09 51.00 9 9 1 5 8

34
Captulo IV

Pronsticos. Anlisis de Correlacin y Regresin Lineal

En las organizaciones empresariales o gubernamentales surge la


necesidad de establecer pronsticos acerca del futuro. El xito de un
negocio depende mucho de la sabidura de su administracin para detectar
tendencias y desarrollar estrategias adecuadas. En el mbito
gubernamental planificar polticas requiere anticiparse a futuras
necesidades y exigencias de la poblacin. Cuando se dispone de datos
histricos se cuenta con algunos mtodos estadsticos de pronsticos, los
cuales nos permiten anticiparnos a demandas futuras. Las series de
tiempo son datos histricos que se usan en pronsticos. Un mtodo
estadstico de pronstico es el anlisis de regresin, donde la variable a
pronosticar se expresa como una funcin matemtica de una o ms
variables cuyos valores se conocern en el momento del pronstico.

Casos.

Pronostico de Ventas

Los fabricantes deben saber cunto producir. Los distribuidores y


comerciantes deben tener idea de cunto almacenar. Subestimar la
demanda puede implicar perdida de ventas y competitividad. Sobrestimar
la demanda podra ocasionar incremento en los costos de almacenamiento
y saturacin del mercado.

Pronostico en la Reposicin de Repuestos

Muchas compaas y entes gubernamentales requieren un inventario de


repuestos para efectuar el mantenimiento de sus unidades: lneas areas,
flotas de autobuses, flotas de gandolas, flotas de trenes, flotas de barcos.

Pronsticos del Rendimiento de Produccin.

Este pronstico se hace sobre la base del porcentaje de artculos


terminados que cumplen con los estndares de calidad. Si el rendimiento
es menor al 100% se debe planificar la produccin de modo que pueda
reemplazarse los productos fuera del estndar de calidad. Un pronstico
35
adecuado o confiable del rendimiento de la produccin es esencial para
elegir un valor adecuado de la holgura de rechazo.

Pronostico de la Necesidad de Personal.

Esto es esencial para cualquier organizacin en vista de la complejidad de


las actividades y de su diversidad. Empresas que contratan a cientos o
miles de personas, requieren pronosticar, dado el
crecimiento/decrecimiento de la empresa, a cuantos empleados debe
contratar y sus correspondientes especialidades.

Series de tiempo. La mayora de los mtodos estadsticos de pronstico se


basan en el uso de datos histricos. Una serie de tiempo es una serie de
observaciones en el tiempo de alguna variable de inters.

Pronsticos Causales.

En algunos casos, la variable que se va a pronosticar tiene una relacin


bastante directa con una o ms variables cuyos valores se conocen en el
momento del pronstico. Un pronstico causal proporciona un pronstico
de la cantidad de inters (variable dependiente) relacionndola en forma
directa con una o ms cantidades (variables independientes) que impulsan
a la cantidad de inters.

Tipos de Pronsticos Posible Variable Posible Variable


Dependiente Independiente
Ventas Volumen de venta de Cantidad invertida en
un producto publicidad
Reparaciones Demanda de repuestos Tiempo de uso del
equipo
Tendencias Producto Interno Bruto Factores econmicos
Econmicas

Anlisis de Correlacin Lineal

Datos Bivariados. Este trmino se refiere a dos diferentes variables que


son obtenidas de un solo elemento de una poblacin. Cada una de dichas
variables pueden ser del tipo cualitativa (atributo) o cuantitativa. Es

36
costumbre expresar los datos en forma de un par ordenado (x,y), donde x
es la variable de entrada (o independiente), y es la variable de salida (o
dependiente)

Ejemplo. Si una variable es la altura y otra es el peso de una persona,


ambos datos son registrados para una persona. En este caso cualquiera
de las dos variables puede tomarse como la de entrada y la otra como la
de salida, dependiendo del inters del problema.

Diagramas de Dispersin.

En este diagrama se representan grficamente los pares ordenados de los


datos Bivariados en un sistema de coordenadas.

Ejemplo. En un centro de educacin fsica se seleccionaron al azar a diez


participantes y se recogi la siguiente data del nmero de flexiones y
abdominales hecho por cada uno. Elabore el diagrama de dispersin
Participante Flexiones Abdominales Participante Flexiones Abdominales
1 27 30 6 52 40
2 22 26 7 35 32
3 15 25 8 55 54
4 35 42 9 40 50
5 30 38 10 40 43

Diagrama de Dispersin

Flexiones vs Abdominales
60

50
Abdominales

40

30

20

10

0
0 10 20 30 40 50 60
y = 0.6579x + 14.908
Flexiones
R = 0.7047

37
Anlisis de Correlacin.

Este anlisis tiene por objetivo medir hasta que punto hay algn tipo de
asociacin lineal entre dos variables.

Caso I. Si al variar la variable independiente hay un cambio definido en la


variable independiente, decimos que hay una correlacin entre dichas
variables. Lo anterior se ilustra en los diagramas

Caso II. Si al variar la variable independiente no hay un cambio definido en


la variable independiente, decimos que no hay una correlacin entre
dichas variables. Lo cual se ilustra en el ejemplo siguiente.

Ejemplo. Se efectu una encuesta para determinar si hay una asociacin


entre el nmero de horas de ejercicio en promedio por semana que
realizaban un grupo de diez estudiantes seleccionados al azar y el
promedio de notas final del periodo. Se recogi la siguiente data. Elabore
el diagrama de dispersin
Estudiante Horas de Nota Final Estudiante Horas de Nota Final
Ejercicio Promedio Ejercicio Promedio
1 12 3.6 6 2 2.2
2 3 4.0 7 20 3.7
3 0 3.9 8 14 3.0
4 6 2.5 9 15 1.8
5 10 2.4 10 5 3.1

Diagrama de Dispersin

38
Horas Ejercicio vs Nota
4.5
4
3.5
3
2.5
Nota

2
1.5
1
0.5
0
0 5 10 15 20 25
y = -0.0148x + 3.1484
Horas Ejercicio
R = 0.0155

Coeficiente de Correlacin Lineal.

Este da una medida de hasta qu punto hay una relacin lineal entre dos
variables. Este coeficiente refleja la consistencia del efecto de un cambio
en una variable produce en otra variable. El coeficiente de correlacin se
denota r, y adquiere valores tales que:

1 1

Valor de r igual a -1, indica una correlacin lineal perfecta negativa (esto se
refiere a que todos los datos Bivariados caen exactamente sobre una lnea
recta de pendiente negativa)

Valor de r igual a 1, indica una correlacin lineal perfecta positiva (esto se


refiere a que todos los datos Bivariados caen exactamente sobre una lnea
recta de pendiente positiva).

El coeficiente de correlacin, tambin llamado de Pearson, se define


mediante
(, )
=
()()

39
Donde SS significa suma de cuadrados. El numerador y denominador de la
expresin anterior lo calcularemos mediante:

(, ) =

( )2
() = 2

( )2
2
() =

Donde n es el nmero de pares de datos.

Ejemplo. Calcule el coeficiente de correlacin para los datos

Estudiante Horas de Nota Final xy


Ejercicio Promedio
(x) (y)
1 12 3.6
2 3 4.0
3 0 3.9
4 6 2.5
5 10 2.4
6 2 2.2
7 20 3.7
8 14 3.0
9 15 1.8
10 5 3.1
= = = 2= 2=

3.5. Mtodo de Mnimos Cuadrados

Este es un mtodo que permite determinar la ecuacin lineal que mejor


ajusta los datos Bivariados.

40
En el caso del modelo lineal, se trata de escoger la ecuacin de la lnea
recta que mejor ajusta los datos la cual est determinada por el intercepto
u ordenada al origen 0 y por la pendiente 1 .

Dado un conjunto de puntos (0 , 0 ), (1 , 1 ), , ( , ) este mtodo


consiste primeramente en definir una funcin error mediante

= ( ( ))2
=0

Inicialmente consideraremos que la relacin entre la variable de entrada y


la de salida es un polinomio de primer grado o una ecuacin lineal para el
cual se desea determinar los coeficientes 0 y 1 :

( ) = 0 + 1

A modo de simplificacin sustituiremos ( ) por . La expresin anterior


la podemos escribir

= 0 + 1

El error lo podemos escribir


= ( (0 + 1 ))2
=0

Para que la funcin error E alcance un mnimo se requiere que:



=0 =0
0 1
O de modo equivalente

( (0 + 1 ))2 = 0 ( (0 + 1 ))2 = 0
0 1
Las ecuaciones anteriores se simplifican a lo que se denominan
ecuaciones normales

41

0 0 + 1 1 = 0
=0 =0 =0

0 1 + 1 2 = 1
=0 =0 =0

Las anteriores constituyen un sistema de dos ecuaciones con dos


variables conocido como ecuaciones normales. Resolviendo el sistema
anterior obtenemos las ecuaciones siguientes:

El intercepto de la recta de mnimos cuadrados lo calcularemos


mediante
1
0 =

La pendiente de la recta de mnimos cuadrados la calcularemos
mediante
(, )
1 =
()
Ejemplo. Determine la ecuacin lineal que mejor ajusta los datos del
problema del nmero de horas de ejercicio en promedio por semana que
realizaban un grupo de diez estudiantes seleccionados al azar y el
promedio de notas final del periodo

3.6. Anlisis de Regresin Lineal

El objetivo de este anlisis es encontrar una ecuacin que mejor describa


la relacin entre dos variables. La ecuacin encontrada nos permitir hacer
predicciones acerca del comportamiento de la variable de salida con la
variacin de la variable de entrada.

La relacin entre dos variables podra ser una expresin como las
siguientes:

42
Exponencial =
Potencial =
Logartmica =
Polinmicas = 0 + 1 + 2 2 + +

Relacin Exponencial. Ocasionalmente encontraremos que la relacin


que mejor ajusta los datos Bivariados puede ser una de tipo exponencial
como:

En este caso la ecuacin anterior puede transformarse en otra equivalente,


tomando logaritmo en ambos miembros de aquella para obtener:

ln() = ln() +

En cuyo caso podemos aplicar las siguientes transformaciones para poder


usar la ecuacin lineal de mnimos cuadrados y el coeficiente de
correlacin lineal.

ln()

0 ln()

La pendiente la calcularemos mediante


(, ln())
=
()
El intercepto lo calcularemos mediante
ln()
ln() =

El coeficiente de correlacin lineal lo calcularemos mediante

43
(, ln())
=
()(ln())

Ejemplo. Un ingeniero recopil los datos que se dan en la tabla presentada


a continuacin. Determine la ecuacin lineal de mnimos cuadrados que
mejor ajustan los datos y el coeficiente de correlacin lineal
(x) (y) Ln(y) xln(y) 2 (ln())2
1 0.2
2 0.3
3 0.5
4 0.5
5 1.3
6 2.3
7 2.9
8 4.5
9 8.7
10 12.0
= ln()= ()= 2= (ln())2 =

Relacin Potencial. Tambin podemos encontraremos que la relacin que


mejor ajusta los datos Bivariados puede ser una de tipo exponencial como:

La ecuacin anterior puede transformarse en otra equivalente, tomando


logaritmo en ambos miembros de la igualdad para obtener:

ln() = ln() + ()

Aqu podemos aplicar las siguientes transformaciones para poder usar la


ecuacin lineal de mnimos cuadrados y el coeficiente de correlacin lineal.

ln()

ln()

0 ln()

La pendiente la calcularemos mediante


44
(ln(), ln())
=
(ln())

El intercepto lo calcularemos mediante


ln() ln()
ln() =

El coeficiente de correlacin lineal lo calcularemos mediante
(ln(), ln())
=
(())(ln())

Ejemplo. Para el caso de los datos del ingeniero dados en el ejemplo


anterior, determine si el modelo potencial es el que mejor ajusta los datos
y el coeficiente de correlacin lineal
(x) (y) Ln(x) Ln(y) Ln(x)ln(y) 2 () 2 ()
1 0.2
2 0.3
3 0.5
4 0.5
5 1.3
6 2.3
7 2.9
8 4.5
9 8.7
10 12.0
ln()= ()()= 2 ()= 2 ()=

Relacin Polinmica. El problema general de aproximar un conjunto de


datos Bivariados {( , ); = 0, 1, 2, , }, mediante un polinomio
() = =0 de grado n M usando el mtodo de mnimos
cuadrados requiere determinar los coeficientes 0 , 1 , , , para minimizar
el error de mnimos cuadrados.

La suma de los cuadrados del error cometido en el ajuste de los datos con
un polinomio de mnimos cuadrados se determina mediante:

45

= ( ( ))2
=0

La minimizacin de la expresin anterior conduce a un sistema de


ecuaciones conocido como ecuaciones normales:

0 0 + 1 1 + 2 2 + + = 0
=0 =0 =0 =0 =0

0 1 + 1 2 + 2 3 + + +1 = 1
=0 =0 =0 =0 =0

0 + 1 +1 + 2 +2 + + 2 =
=0 =0 =0 =0 =0

Ejemplo. Ajuste los datos que se muestran en la tabla siguiente con un


polinomio de mnimos cuadrados de grado dos.

K 0 1 2 3 4
0 0.25 0.50 0.75 1.00
1.0000 1.2840 1.6487 2.1170 2.7183

Para este problema tenemos que n = 2, M = 4.


4 4 4 4

0 0 + 1 1 + 2 2 = 0
=0 =0 =0 =0

4 4 4 4

0 1 + 1 2 + 2 3 = 1
=0 =0 =0 =0

46
4 4 4 4

0 2 + 1 3 + 2 4 = 2
=0 =0 =0 =0

Efectuando las sumas correspondientes en las formulas anteriores


obtenemos el siguiente sistema de ecuaciones:

50 + 2.51 + 1.8752 = 8.7680

2.50 + 1.8751 + 1.56252 = 5.4514

1.8750 + 1.56251 + 1.38282 = 4.4015

La solucin del anterior sistema de ecuaciones es 0 = 1.0052, 1 =


0.8641, 2 = 0.8437. Por tanto el polinomio de mnimos cuadrados
buscado es

2 () = 1.0052 + 0.8641 + 0.8437 2

3.7 Error en el Modelo de Regresin Lineal.

El polinomio de primer grado o ecuacin lineal de mnimos cuadrados con


el error viene dado por:

= 0 + 1 +

El trmino de error es una variable aleatoria normalmente distribuida con


media 0 y desviacin estndar . En el modelo lineal los parmetros: el
intercepto 0 y la pendiente 1 no se conocen y deben ser estimadas a
partir de los datos.

La desviacin estndar del trmino de error en el ajuste de los datos con


un polinomio lineal de mnimos cuadrados se puede estimar mediante:

(, )2
=0( )2 () ()
= =
2 2

La desviacin estndar del intercepto 0 lo podemos calcular:

47
1 ( /)2
0 = +
()

Y la desviacin estndar de la pendiente 1 , lo podemos calcular


mediante:

1 =
()

Prctica.

1. La oficina del Nio del departamento de salud de EE.UU., contabilizo 510000


nios en centros de cuidado y crianza. La siguiente tabla da la edad de los nios
que entraron a dichos centros en 2006 y el nmero de aquellos por cada edad
a) Construya el diagrama de dispersin de la edad vs el nmero de nios.
b) Determine el ndice de correlacin lineal.
c) Si se justifica aplique el anlisis de regresin, o sea determine la ecuacin lineal
que mejor ajusta a los datos.

EDAD NUMERO EDAD NUMERO EDAD NUMERO


0 47536 7 12380 14 18981
1 20646 8 11312 15 22729
2 18234 9 10649 16 21062
3 16145 10 10136 17 12829
4 14919 11 10316 18 702
5 14159 12 11910 19 154
6 13196 13 14944 20 62

2. Los equipos de beisbol ganan y pierden juegos. Muchos fanticos creen el


promedio de carreras anotadas (PCA) tiene un gran efecto sobre los juegos
ganados por el equipo. Durante el 2008 los equipos de la MLB presentan los
siguientes nmeros de juegos ganados y el correspondiente PCA, los cuales se
dan en la tabla siguiente:
a) Construya el diagrama de dispersin.
b) Determine el ndice de correlacin lineal.

48
c) Determine la ecuacin lineal que mejor ajusta a los datos (de victorias en funcin
de PCA).

VICTORIAS PCA VICTORIAS PCA VICTORIAS PCA


89 4.07 92 3.88 89 4.28
88 4.16 84 3.68 72 4.46
63 4.41 86 3.49 81 4.45
89 4.06 95 4.01 84 4.43
97 3.82 74 4.77 61 4.73
90 3.85 75 4.48 75 4.01
67 5.08 74 4.90 82 3.98
86 4.19 74 4.55 59 4.66
100 3.99 72 4.38 86 4.36
97 3.87 79 5.37 68 5.13

3. Puede la estatura de una mujer ser predicha por la estatura de una madre? La
siguiente tabla da las estaturas de algunas mujeres y la correspondencia de su
hija:
a) Construya el diagrama de dispersin.
b) Determine el ndice de correlacin lineal.
c) Determine la ecuacin lineal que mejor ajusta a los datos.
d) Para una estatura de la madre de 70, Cul estatura predecira Ub para la hija?

MADRE HIJA MADRE HIJA


63 63 64 64
63 65 63 64
67 65 64 65
65 64 64 65
61 64 63 62
63 63 67 66
61 63 61 62
64 62 65 63
62 63 64 66
63 64 65 66
66 65

4. Los productores de caa de azcar estn interesados en la relacin entre las


hectreas totales destinadas a la siembra de caa de azcar y la produccin
total de caa de azcar de dichas hectreas. En la siguiente tabla se dan los
datos de catorce haciendas productoras de caa de azcar:

49
a) Construya el diagrama de dispersin.
b) Determine el ndice de correlacin lineal.
c) Determine la ecuacin lineal que mejor ajusta a los datos.

REA PRODUCCIN REA PRODUCCIN


(HECTREAS) (TON) (HECTREAS) (TON)
2600 70000 10100 300000
28900 825000 12300 375000
13600 470000 25100 730000
9600 295000 51000 1530000
26400 800000 11100 335000
39400 1220000 26500 770000
30000 910000 1700 55000

5. Durante el campeonato de Home Run de todas las estrellas de MLB, Josh


Hamilton bateo 35 home run. De cada uno de los anteriores se midi:
La altura mxima alcanzada por la pelota (H).
El recorrido estndar (RE), la distancia ras del suelo.
a) Construya el diagrama de dispersin.
b) Determine el ndice de correlacin.
c) Determine la ecuacin lineal que mejor ajusta a los datos.
d) Cul es el recorrido estndar que predecira para una altura de 120?

H 100 114 145 45 98 130 105 94 59


RE 459 474 404 378 479 443 393 410 350
H 112 50 144 154 153 132 126 123 118
RE 430 390 411 418 423 455 421 464 440
H 70 152 95 48 162 117 54 110 80
RE 432 435 447 386 364 447 379 423 440
H 125 47 119 111 84 155 153 116
RE 428 387 453 401 387 445 426 463

50
Capitulo V
Teora de Probabilidad

La teora de Probabilidad tuvo sus orgenes en una sencilla teora


matemtica de los juegos de azar, los cuales estn afectados
intrnsecamente por la incertidumbre. Las probabilidades permiten estudiar
y medir la incertidumbre que surge como consecuencia de

Falta de instrumentos de medicin adecuados o precisos


Desconocimiento de las leyes que rigen los fenmenos
No tener dominio de todas las variables que intervienen en los
fenmenos

Muchos experimentos u observaciones pueden repetirse bajo condiciones


uniformes. Sin embargo aparece una variabilidad intrnseca que no es
posible eliminar. Esta variabilidad provoca que el resultado de un
experimento flucte de manera irregular en las sucesivas repeticiones, lo
que conlleva a que el resultado no pueda predecirse exactamente.

Ejemplo. Considere el experimento de observar el resultado de lanzar un


dado. Este es

Ejemplo. Considere el experimento de lanzar una moneda.

Ejemplo. Sea el experimento de anotar le edad de un grupo de personas.

Ejemplo. Sea el experimento de registrar, en cierto organismo, el nmero


de ausencias laborales al ao.

Experimento Aleatorio o Probabilstico. Es una accin que puede ser


repetida bajo las mismas condiciones tantas veces como se quiera del cual
se conocen todos los resultados posibles, sin que pueda predecirse con
exactitud el resultado que se obtendr en la siguiente repeticin.

Espacio Muestral. Es el conjunto de todos los resultados a priori de un


experimento aleatorio. Aqu lo denotaremos usando la letra griega .
Todos los resultados posibles se pueden presentar en forma de:

Lista (encerrados entre llaves { })


51
Tabular

Ejemplo. El experimento de lanzar una moneda es un juego de azar, cuyos


resultados posibles son:

Cara: C Sello: S

El espacio muestral es = {C , S}.

Ejemplo. El experimento de lanzar dos monedas, sus resultados posibles


son:


Resultado Codificacin
Cara-Cara CC
Cara-Sello CS
Sello-Cara SC
Sello-Sello SS

= {CC, CS, SC, SS}

Los resultados del experimento tambin pueden describirse mediante un


diagrama de rbol como:

El nmero de elementos presentes en el espacio muestral se denota ||.


En el ejemplo anterior || = 4.

Ejemplo. Carlos, Ana y Pedro, pueden ser escogidos para ocupar


cualquiera de los cargos de un comit con: Presidente, Tesorero y Vocal.
Describa el espacio muestral.

Presidente Tesorero Vocal


Carlos: C Carlos Carlos
Ana: A Ana Ana
Pedro: P Pedro Pedro
3 2 1

52
Ejemplo. En una heladera se venden los sabores: chocolate, mantecado,
fresa, y en las presentaciones: barquilla y tinita. Describa las posibles
escogencias de los clientes (espacio muestral).

Presentacin Sabores
Barquilla: B Chocolate: C
Tinita: T Mantecado: M
Fresa: F
2 3

Evento Simple. Dado un espacio muestral finito

= {1 , 2 , . , }

Donde 1 , 2 , . , , son los resultados a priori o de antemano que se


pueden obtener en un experimento aleatorio. A cada resultado de
antemano en un experimento aleatorio se le denomina evento o suceso
simple.

Evento o suceso compuesto es la reunin de varios eventos simples.

Ejemplo. En el caso de la heladera cada una de las combinaciones entre


presentacin y sabor constituye un suceso simple

Presentacin Sabores
C
B M
F
C
T M
F

El suceso compuesto de pedir chocolate esta conformado por los sucesos


simples: BC y TC.

53
Definicin Informal de Probabilidad.

La probabilidad de un evento es una medida de la oportunidad que


esperamos que dicho evento ocurra. Asignamos un nmero entre 0 y 1 (o
en escala porcentual, entre 0 y 100) inclusive a la probabilidad del evento.

Definicin Informal. Dado un espacio muestral , correspondiente a un


experimento aleatorio y dado ciertos eventos simples presentes en . Una
probabilidad es una funcin que asigna a cada evento simple un
nmero designado ( ), tal que

0 ( ) 1

Tambin la probabilidad satisface la propiedad siguiente.

Supongamos que tenemos un espacio muestral finito

= {1 , 2 , . , }

De modo tal que

(1 ) + (2 ) + + ( ) = 1

Si A es un evento compuesto

A = { , , . , }

La probabilidad de un evento compuesto la calculamos mediante

() = ( ) + ( ) + + ( )

Asignacin Uniforme de Probabilidad

Dado un espacio muestral finito

= {1 , 2 , . , }

A los sucesos simples les podemos asignar la misma probabilidad, en caso


de que todos tengan la misma oportunidad de ser seleccionado en un
muestreo. De tal manera que

54
1
( ) = || k = 1, 2, , n

La cual constituye una asignacin uniforme de probabilidad, ya que todos


los sucesos simples les asignamos la misma probabilidad.

Ejemplo. Dado el caso del comit integrado por Carlos, Ana y Pedro, para
los cargos de Presidente, Tesorero y Vocal.

El espacio muestral, o todos los comits que pueden formarse son:

= {CAP, CPA, ACP, APC, PAC, PCA}

|| = 6

Cada comit es un suceso simple en el espacio muestral. Si todos los


comits tienen igual oportunidad de conformarse, entonces podemos hacer
la siguiente asignacin de probabilidad

Comit Probabilidad
CAP 1/6
ACP 1/6
PAC 1/6
CPA 1/6
APC 1/6
PCA 1/6

Determine la probabilidad de los sucesos siguientes:


Suceso Probabilidad
Carlos es el Presidente A={CAP, CPA} P(A) = 1/6 + 1/6
Ana Presidente o Pedro B={ACP, APC, PAC, PCA} P(B) =1/6 + 1/6 + 1/6 + 1/6
Presidente
Ana Presidente o Ana C={ACP, APC, PAC, CAP} P(C) =1/6 + 1/6 + 1/6 + 1/6
Tesorero

Practica. Teora Probabilidad.


1. En una cierta empresa se asigna un cdigo alfanumrico a cada
empleado para su identificacin, conformado por tres letras y un
nmero del 1 al 10. La primera letra es para identificar una de las

55
regiones: Distrito Capital, Centro y Occidente. La segunda letra es
para identificar el departamento: Ventas, Administrativo y Produccin.
La ltima letra identifica el escalafn ocupado: Gerencia, Oficinista y
Obrero. Si todas las identificaciones tienen igual oportunidad al ser
seleccionada al azar, describa el espacio muestral de las
identificaciones. Describa la probabilidad de los sucesos: a) La
identificacin corresponda a un personal administrativo, b) La
identificacin corresponda a un personal en el Distrito Capital y sea un
obrero, c) La identificacin corresponda a un personal ubicado en el
centro, sea gerente y tenga una numeracin mayor o igual que 5.
2. Se desea realizar una encuesta a familias con tres hijos. Describa
todas las combinaciones del sexo de los tres hijos que una familia
puede tener (espacio muestral). Si cualquier combinacin del sexo de
los tres hijos que se puede obtener tiene la misma oportunidad de
aparecer en la encuesta, determine la probabilidad de los sucesos: a)
el primer y segundo hijos sea varones, b) Todos los hijos sean
hembras, c) el primer hijo sea varn o el ltimo hijo sea hembra, d) el
tercer hijo sea varn.
3. La tabla siguiente muestra en promedio el nmero de nacimientos por
dia en EEUU. Determina la probabilidad de los sucesos siguientes: a)
nacer un lunes, b) nacer un da laborable, c) nacer un fin de semana,
d) nacer un lunes, o un mircoles o un viernes.
Dia Nmero de Nacimientos
Domingo 7563
Lunes 11733
Martes 13001
Mircoles 12598
Jueves 12514
Viernes 12396
Sbado 8605

4. En el basquetbol, cuando a un jugador le hacen una falta defensiva,


este puede cobrar dos tiros libres. Para cierto jugador, en una
temporada, se obtuvo las siguientes estadsticas: en 40 pares encest
el primer lanzamiento y fall el segundo, en 60 pares encest ambos
56
lanzamientos; en 45 pares fall el primer lanzamiento y encest el
segundo lanzamiento; en 10 pares fall ambos lanzamientos.
Determina la probabilidad de los sucesos: a) Encesto el primer
lanzamiento; b) fall ambos lanzamientos; c) encest el segundo
lanzamiento; d) fall un lanzamiento pero encest el otro.
5. Un troquel es empleado para elaborar varillas de aluminio. Dos de las
especificaciones de calidad se establecen para la longitud y el
dimetro de las varillas. Para cada varilla la longitud puede estar: muy
corta, muy larga o conforme; el dimetro se clasifica: muy delgado,
muy grueso o conforme. Cuando se toma una muestra de 1000
varillas se encontr lo que se muestra en la tabla siguiente.
Dimetro
Longitud Muy Delgada Conforme Muy gruesa
Muy corta 10 3 5
Conforme 38 900 4
Muy larga 2 25 13

Calcule la probabilidad de los sucesos: a) La varilla est muy corta, b)


la varilla est muy gruesa y muy larga, c) la varilla esta conforme en
longitud y dimetro, d) la varilla esta conforme en longitud pero muy
delgada o muy gruesa.
6. Un examen consta de cuatro preguntas. Las respuestas son de
seleccin simple: verdadero (v) o falso (f). La respuesta correcta a
cada pregunta es

Pregunta 1 2 3 4
Respuesta V F V F
Cada respuesta correcta vale 5 puntos. Si alguien selecciona al azar
sus respuestas, calcule la probabilidad de los sucesos siguientes:
obtener 20 puntos, obtener 15 puntos, obtener 10 puntos y salir
aplazado.

57

Вам также может понравиться