Вы находитесь на странице: 1из 76

ESTADSTICA DESCRIPTIVA

para Ingeniera (fms 175)


















Cecilia Larran R. Estadstica Descriptiva Ingeniera Pgina 2

Introduccin
Qu es la Estadstica:
Actualmente la Estadstica es una ciencia que:
- proporciona tcnicas precisas para obtener informacin
*
(recogida y
descripcin de datos).
- proporciona mtodos para el anlisis de la informacin
*
y posteriores
inferencias.

Por qu hay que estudiar Estadstica?
Si se revisan las mallas curriculares de las distintas carreras profesionales,
veremos que en la mayora existe por lo menos una asignatura de Estadstica.
Bsicamente los contenidos de un primer curso de Estadstica en diferentes
carreras son los mimos, la mayor diferencia radica en los ejemplos utilizados.

La principal razn es que el rol ms destacado de la Estadstica es la recopilacin,
presentacin, anlisis de un conjunto de datos, a partir de los cuales se obtienen
conclusiones y se toman decisiones.

Saber Estadstica es de gran utilidad en cualquier rea del conocimiento y en
particular en Ingeniera o en Ciencia.
Ejemplos:
- Diseo y desarrollo y mejora en los proceso productivos como control de
calidad, control de la variabilidad del proceso,
- Estudios de materiales en cuanto a duracin, dureza, elasticidad, .
- Control de inventarios, con la estadstica se analiza la tendencia de flujo de
ciertos materiales y ciertos productos.
- Comparar los tiempos de ejecucin de 3 algoritmos de ordenacin (algoritmo
de la burbuja, de seleccin, de insercin, quicksort, treesort)
- Diseo de autopista, cantidad de trfico que se espera tener durante los aos
siguientes, determinar el nmero de carriles, la resistencia de la base por el
tipo de trfico esperado, los entronques y salidas que sern ms
demandados, el tipo de equipamiento en la va, su factibilidad financiera y su
impacto en la vialidad local, regional o nacional.
- Clasificacin de minerales
-


El objetivo fundamental de la estadstica es analizar datos y
transformarlos en informacin til para tomar decisiones.


Cecilia Larran R. Estadstica Descriptiva Ingeniera Pgina 3

La mayor contribucin de la Estadstica en la resolucin de problemas en ingeniera es su
utilizacin como herramienta de aprendizaje. El aprendizaje que se obtiene mediante la estadstica
forma parte del denominado Mtodo Cientfico
El mtodo cientfico es la estrategia de la investigacin cientfica: afecta a todo ciclo completo de
investigacin y es independiente del tema en estudio.
Al ser la Ingeniera la aplicacin del conocimiento cientfico, todo proyecto en ingeniera debe
contener los rasgos del mtodo cientfico.

La Estadstica posee un conjunto de tcnicas que se emplean para la recopilacin,
organizacin, presentacin, anlisis e interpretacin de los datos para tomar decisiones y
resolver problemas, la estadstica se puede clasificar como:
Estadstica
descriptiva
Tiene como objetivo caracterizar, describir y extraer
conclusiones sobre una muestra de datos o de la poblacin
de inters.

Probabilidad
Mide la incertidumbre, deduce las leyes que rigen a los
fenmenos que se investigan.
Es la herramienta a partir de la que se desarrolla la
inferencia estadstica
Estadstica
Inferencial
La inferencia estadstica es un proceso que consiste en utilizar los
resultados de una muestra para llegar a conclusiones acerca de las
caractersticas de la poblacin (requiere clculo de probabilidades)
Estadstica Inferencial: conjunto de procedimientos
estadsticos en los que interviene la aplicacin de modelos de
probabilidad y mediante los cuales se realiza alguna
afirmacin sobre poblaciones con base en la informacin
producida por muestras.













Conocer los conceptos fundamentales
La Estadstica Descriptiva utiliza, tablas,
grficos y resmenes numricos

Para realizar cualquier estudio estadstico,
hay que tener en cuenta:
Cmo y de donde se recolect la
informacin
Qu se midi atributos o cantidades?




Cecilia Larran R. Estadstica Descriptiva Ingeniera Pgina 4


CONCEPTOS FUNDAMENTALES

Poblacin: Conjunto de elementos a los que se les estudia una caracterstica
Tamao poblacin: N
- Los estudiantes de nuestra universidad
- Las personas activa en Chile (poblacin activa)
- La flota de aviones de aviones de una compaa area
Censo: estudio completo de la poblacin
A las medidas de resmenes poblacionales como la media poblacional ,
desviacin estndar poblacional , , se les denominan parmetros.

Muestra: subconjunto de elementos seleccionados de la poblacin sobre el cual
se va a llevar el estudio).
Tamao muestra: n

Debera ser representativo
Est formado por miembros seleccionados de la poblacin (individuos,
unidades de estudio, unidades de observacin, unidades experimentales).
A las medidas de resmenes muestrales como la media de la muestra
x , desviacin estndar de la muestra s, se les denomina
estadsticos.
De una poblacin existen muchas muestras posibles, pero slo observamos una!

Nota: A la hora de decidir sobre la forma de recoger la informacin de la muestra se utilizan
distintos criterios, originando distintos tipos de muestreos.

Encuesta: Tcnica de investigacin para obtener informacin de grupos de
personas mediante el uso de instrumentos como cuestionarios diseados en
forma previa.

Diseo de experimentos: Metodologa estadstica que permite identificar y
cuantificar las causas de un efecto en un estudio experimental. El objetivo del
diseo de experimento es estudiar si utilizar un determinado tratamiento produce
mejora en el proceso o no.



Cecilia Larran R. Estadstica Descriptiva Ingeniera Pgina 5






Variable: una variable es una caracterstica observable que vara entre los
diferentes individuos de una poblacin. La informacin que disponemos de cada
individuo es resumida en variables.



En la poblacin de alumnos de Ingeniera de una universidad, es variable:
- Gnero: {Femenino, Masculino} var. cualitativa, dicotmica, nominal
- Especialidad :{Informtica, Industrial, Obras Civiles, } var. cualitativa discreta nominal
- Nmero de asignatura aprobadas: {0,1,2,3,...} var. cuantitativa discreta razn
- Nivel de Educ. del padre: {Bsica, Media Superior} var. Cualitativa discreta ordinal
- La altura (en cm.): {162 , 156, 170 ...} var. Cuantitativa, continua, razn
- Edad (aos): {17, 18, 19, } var. Cuantitativa continua razn
.
.
.






Se acostumbra denotar a las variables con letras maysculas. X, Y, Z,
Dato: valor de la variable asociado a un elemento de la poblacin o muestra.
(los valores de las variables se denotan con letras minsculas)
Ejemplo: (archivo de datos)
Sujeto Sexo Edad Especialidad
(X
1
) (X
2
) (X
3
)


01 M 21 IND observacin 1
02 M 22 INF
03 F 31 OC
. . . .
. . . .
. . . .
La primera observacin indica que el sujeto es de sexo masculino, tiene 21 aos y
estudia Ingeniera Industrial. Cada una de estas tres mediciones es un dato para
cada una de las variables medidas para el sujeto 1.
HAY QUE CONOCER EL TIPO DE
VARIABLE PARA UTILIZAR LA
HERRAMIENTA ESTADSTICA
ADECUADA



Cecilia Larran R. Estadstica Descriptiva Ingeniera Pgina 6

El alumno de Ingeniera es la unidad de observacin
Datos primarios
Son aquellos que el investigador obtiene directamente de la realidad, recolectndolos
con sus propios instrumentos.

Datos secundarios
Son registros escritos que proceden tambin de un contacto con la prctica,
pero que ya han sido elegidos y procesados por otros investigadores.
Las fuentes son informacin de datos secundarios deben ser fidedignas.

Los datos primarios y secundarios no son dos clases esencialmente diferentes
de informacin, sino partes de una misma secuencia: todo dato secundario ha
sido primario en sus orgenes, y todo dato primario, a partir del momento en
que el investigador concluye su trabajo, se convierte en dato secundario para
los dems.
Clasificacin de variables
Para realizar un anlisis de datos, es indispensable saber cmo es la variable
que consideramos, pues ello determina el tipo de mtodo estadstico que se
debe utilizar. Las variables se clasifican como:













Segn su naturaleza
Cualitativas o atributos
No toman valores numricos
(modalidades o categoras) y
describen cualidades. (no se
pueden hacer operaciones
algebraicas con ellos).
Ejemplos: Estado Civil
Profesin

Cuantitativas
Sus valores son numricos (tiene
sentido hacer operaciones
algebraicas con ellos).
Ejemplos: Estatura
Nmero de errores


Cecilia Larran R. Estadstica Descriptiva Ingeniera Pgina 7








































Segn tamao del recorrido
Dicotmicas
Toman uno de
dos valores.

Ejem.: Sexo

Discretas
Corresponden en general a
contar el nmero de veces
que ocurre un suceso.
Tienen un recorrido finito o
infinito numerable.
Ejem.: Nmero de cargas
familiares.
.


Continuas
Entre dos valores,
son posibles infinitos
valores intermedios
Ejemplo: Altura (cm)




Cecilia Larran R. Estadstica Descriptiva Ingeniera Pgina 8



Segn el nivel de medicin
La medicin es el proceso mediante el cual se les asignan valores numricos
a objetos siguiendo unas determinadas reglas. Los instrumentos que se
utilizan para llevar a cabo tal medicin se les denominan escalas de medicin.
El criterio utilizado convencionalmente para clasificar las escalas de medida es
el propuesto por Stevens (1946), quien establece cuatro tipos de escala:
nominal, ordinal, de intervalo y de razn.
































ORDINAL
INTERVALAR
RAZN

nicamente permiten
establecer relaciones de
igualdad/desigualdad
entre los objetos que se
estn midiendo.

NO INDICA ORDEN O
JERARQUA

Ejemplos
SEXO:
Masculino (1)
Femenino (2)

PROFESIN:

Ingeniero (1)
Profesor (2)
Mdico (3)





Cecilia Larran R. Estadstica Descriptiva Ingeniera Pgina 9









































NOMINAL
INTERVALAR
RAZN
Adems de permitir relaciones
de igualdad /desigualdad,
permite establecer relaciones
de orden (mayor o menor que)
entre los objetos que se estn
midiendo.
EXISTE UN ORDEN O
JERARQUA

Ejemplo
NIVEL EDUCACIONAL:

Univ. con doctorado (5)
Univ. con Magister (4)
Superior (3)
Media (2)
Bsica (1)





Cecilia Larran R. Estadstica Descriptiva Ingeniera Pgina 10











































NOMINAL
ORDINAL
RAZN
Al igual que los dos tipos de escalas anteriores (nominal u ordinal), esta escala
permite establecer relaciones de igualdad /desigualdad y de orden entre los objetos
que se miden. Los intervalos entre los nmeros de la escala son iguales, por lo
tanto se puede realizar las operaciones suma y resta. Este tipo de escala carece de
un cero absoluto, por lo que no estn permitidas ni la multiplicacin ni la divisin
entre los nmeros de la escala. Una escala de intervalo es, por ejemplo, la utilizada
para medir la temperatura en C. Como los intervalos de la escala son iguales, se
puede afirmar que la diferencia de temperatura que existe entre 25 y 28 grados es
la misma que existe entre 30 y 33 grados. Sin embargo, dado que el punto 0 de la
escala es arbitrario -no existe ausencia de temperatura- no se puede afirmar,
por ejemplo, que 20 grados es exactamente la mitad de 40 grados.



Cecilia Larran R. Estadstica Descriptiva Ingeniera Pgina 11













































NOMINAL
ORDINAL
INTERVALAR
Es la escala que permite el nivel ms alto de medicin.
Adems de las operaciones que permiten las escalas
anteriores, en una escala de razn existe el cero (0)
emprico, por lo cual se puede efectuar cualquier operacin
aritmtica con los nmeros de la escala. El tiempo de
reaccin, por ejemplo es una variable medida en escala
de razn. No slo se puede afirmar que la diferencia entre
3 y 6 segundos es la misma que entre 6 y 9 segundos
(afirmacin vlida tambin en la escala de intervalos), sino,
adems, que 6 s es el doble de 3 s Afirmacin que es
posible establecer gracias a que en la escala de tiempo de
reaccin existe el cero absoluto: cero significa ausencia de
tiempo de reaccin.



Cecilia Larran R. Estadstica Descriptiva Ingeniera Pgina 12


Clasificacin de variables segn su funcin










Ejemplo: Los hbitos de estudios influyen en el rendimiento acadmico de los
Estudiantes

VD = Rendimiento acadmico VI = hbitos de estudio
V interv. = Aptitud personal, Nivel nutricional,
Ejercicios I
Ejercicio I-1
Determine en cada caso, si se trata o no de una variable.
- La edad mnima para poder votar por primera vez en Chile.
- Nmero de errores diarios en una central telefnica.
- Tiempo (en aos) de experiencia laboral.
- Profesin de los clientes de un banco.
- Sueldo de los Ingenieros.
Ejercicio I-2
Se quiere analizar el nmero de horas de estudio semanal que dedican los alumnos
postgrado del rea Ingeniera de esta Universidad. Para ello se selecciona a 35 alumnos
que estn participando en postgrado.
Indique cual es la:
Unidad de observacin:
Poblacin:
Variable:
Muestra:
VI
Independiente
Introduce o manipula el
investigador

VD
Dependiente
Se observa y se miden los
cambios

Interviniente
Es la que puede mediar en la
relacin entre VI y VD y que
puede influir en los resultados




Cecilia Larran R. Estadstica Descriptiva Ingeniera Pgina 13

Ejercicio I-3

El coeficiente intelectual (CI) promedio en la poblacin adulta chilena es 100 puntos. Un
investigador educacional est interesado en probar que las personas adultas que hablan
ms de un idioma tienen un CI superior a la media poblacional.
En una muestra de 250 personas que hablan ms de un idioma se obtuvo un
promedio (CI medio) de 102.
Complete:

Variable de inters (nombre)
X
Clasificacin de la variable
Naturaleza Recorrido Medicin


Promedio
poblacional

Promedio
muestral
x



Ejercicio I-4
Qu situaciones se representan estadsticamente con una variable discreta y cules con una
variable continua?
a) El nmero de defectuosos en la fabricacin.
b) Los tipos de defectos encontrados
c) El tiempo de vida de las unidades que se fabrican
d) El costo de fabricacin
e) El nivel de satisfaccin de los clientes
f) N de pedidos que se hacen al mes
g) El tiempo que transcurre desde que llega un pedido hasta que llega el siguiente

Ejercicio I-5
En el departamento de personal de una empresa con 10.000 trabajadores se quiere estimar los
gastos familiares en salud de sus empleados para determinar la posibilidad de proporcionarles un
plan de seguro mdico.
Si el gasto mensual ($) en salud de 10 empleados elegidos al azar fue:

71.060,0 233.852,0 158.916,0 54.910,0 329.460,0 134.368,0 111.758,0 274.550,0 204.136,0 115.634,0

Indique: Unidad de observacin: ______________________
Poblacin: _______________________ Tamao N =
Variable: X = _____________________
Muestra: _________________________ Tamao: n =
Interprete
1
n
i
i
x
=
=


Calcule
2
1
i
n
i
x
=
=





Cecilia Larran R. Estadstica Descriptiva Ingeniera Pgina 14


Ejercicio I-6

La siguiente informacin corresponde al peso en kg y la estatura en cm de 10 empleados
pblicos varones:

sujeto 1 2 3 4 5 6 7 8 9 10
Estatura (X) 172 175 168 173 159 166 176 180 179 168
Peso (Y) 78 75 70 68 44 66 72 98 70 74

Unidad de observacin:_____________
Clasifique las variables segn: naturaleza, tamao del recorrido, nivel de medicin y
funcin.
Poblacin: _______________________ Tamao N =
Muestra: _________________________ Tamao: n =
Interprete
=
=
=

10
1
n
i
i
x

=
=
=

10
1
n
i
i
y


Calcule
=
=
=

10
2
1
i
n
i
x

=
=
=

10
2
1
i
n
i
y



Ejercicio I-7
Cierto tipo de resistencias de pelcula de xido metlico son agrupadas en paquetes
de 50 unidades. Se seleccionaron 60 paquetes y se cont el nmero de resistencias
que no cumplan con las especificaciones, resultando la siguiente tabla
N de resistencia defectuosas en cada paquete

0 1 2 3 4 5 6
Cantidad de paquetes (n
i
)
5 10 16 15 9 3 2

Unidad de observacin:_____________

Variable de inters X= ____________________________
Clasifique la variable segn: naturaleza, tamao del recorrido, nivel de medicin.

Tamao de la muestra: n =
Determine e interprete
=
=

7
1
i i
i
x n



Cecilia Larran R. Estadstica Descriptiva Ingeniera Pgina 15




Ejercicio I-8
Clasifique la variables siguientes segn nivel de medicin:
La Escala de Mohs (escala con diez grados de dureza de los minerales, basada en el principio de
que un mineral duro puede rayar uno blando pero no recprocamente. La escala comienza con el talco
al que se le asigna dureza 1 y termina con el diamante, al que le hizo corresponder dureza 10)
Escala de Richter
El PH de cierto detergente.
Temperatura en escala Kelvin




El objetivo fundamental de la estadstica es analizar datos y transformarlos
en informacin til para tomar decisiones.

Estadstica Descriptiva Univariada
Organizacin de los datos
La estadstica descriptiva, entrega las tcnicas que permiten condensar grandes
grupos de datos mediante el uso de tablas de frecuencias, grficos y medidas
de resumen como media, desviacin estndar, correlacin.

Nota: Para resumir los datos siempre hay que tener en cuenta de qu tipo es la variable
que queremos analizar

Datos en bruto o directos
Cuando la informacin es recolectada, sea de una muestra o de una poblacin,
esta se organiza en la secuencia en que fue obtenida. Esta secuencia de datos
registrados se encuentra desorganizada, lo que no permite extraer informacin
fcilmente, siendo difcil detectar cualquier patrn de variabilidad o estructura de
los datos.

Datos en bruto: Datos registrados en la secuencia en que fueron recolectados, antes de
ser procesados u ordenados.









Cecilia Larran R. Estadstica Descriptiva Ingeniera Pgina 16

Ejemplo 1: El reporte de la inspeccin final de defectos de 150 productos para la lnea
de armado A12 se muestra en la tabla siguiente:


Ejemplo 2: Datos sobre el nmeros de averas en Febrero.2014 de 40
centrales Elctricas.


Ejemplo 3: Nota de Estadstica de 400 alumnos - Semestre 2 - 2013



Cecilia Larran R. Estadstica Descriptiva Ingeniera Pgina 17

















Tabla o distribucin de La presentacin grfica
frecuencias puede revelar de un
Es una tabla que constituye vistazo las
el resumen bsico de principales
los datos caractersticas
de un conjunto









Descripcin estadstica de una variable cualitativa
Grficos

- Sectorial
- Barras
Separadas
- Diagrama
de Pareto

- Pictograma










Medida de resumen
Moda: es el dato o
modalidad de mayor
frecuencia dato
ms representativo








Cecilia Larran R. Estadstica Descriptiva Ingeniera Pgina 18



Defectos en lnea de armado A12
(150 productos examinados)

F
r
e
c
u
e
n
c
i
a
60
50
40
30
20
10
0
6
45
56
12
23
8
Defecto del producto
Otro Rayado Manchado Doblado Astillado Abollado

Ejemplo 1 (pg. 16): El reporte de la inspeccin final de defectos de 150 productos
para la lnea de armado A12 se muestra en la tabla siguiente:

Identifique
Unidad de estudio: ______________
Variable de Inters: ___________________ y clasifquela segn:
Naturaleza: Cualitativa T Recorrido:___________ N Medicin:_________



































Rayado Manchado Manchado Manchado
Abollado Astillado Doblado Manchado
Astillado Rayado Manchado Rayado
Astillado Astillado Manchado Manchado
Otros Astillado Astillado Abollado
Manchado Manchado Rayado Astillado
Rayado Rayado Manchado Manchado
Astillado Rayado Abollado Manchado
Doblado Manchado Manchado Astillado
Rayado Manchado Manchado Doblado
Rayado Manchado Doblado Abollado
Manchado Manchado Astillado Manchado
Manchado Manchado Astillado Rayado
Otros Otros Rayado Doblado
Abollado Rayado Manchado Astillado
Manchado Manchado Astillado Manchado
Rayado Manchado Rayado Rayado
Manchado Rayado Manchado Rayado
Otros Astillado Manchado Astillado
Rayado Rayado Abollado Manchado
Doblado Astillado Manchado Rayado
Doblado Manchado Abollado Rayado
Rayado Manchado Rayado Rayado
Manchado Doblado Manchado Rayado
Manchado Manchado Manchado Manchado
Rayado Astillado Astillado Rayado
Abollado Manchado Rayado Manchado
Manchado Manchado Rayado Rayado
Rayado Manchado Manchado Rayado
Rayado Astillado Astillado Astillado







Defectos en lnea de armado A12
(150 productos examinados)
Defecto del
producto Frecuencia Porcentaje
Abollado
8 5,3
Astillado
23 15,3
Doblado
12 8,0
Manchado
56 37,3
Otros
6 4,0
Rayado
45 30,0
Total
150 100,0


El defecto ms frecuente en la
lnea de armado es Manchado

Moda = manchado







Cecilia Larran R. Estadstica Descriptiva Ingeniera Pgina 19


Tabla de distribucin de frecuencias de una variable cualitativa

Defectos_Linea A12

Defectos del
producto
Frecuencia absoluta
n
i

Frecuencia Relativa
f
i
=
i
n
n

Porcentaje
%
Abollado 8 0,05 5,33
Astillado 23 0,15 15,33
Doblado 12
Manchado 56 37,33
Rayado 45
Otros
Total 150 1,00 100%

Complete la tabla de frecuencias
Frecuencia absoluta (n
i
): Nmero de veces que ocurre la modalidad i. i = 1,2, ,k

Frecuencia relativa (f
i
): Es la proporcin de la categora o modalidad respecto del
total
de datos. 0 < f
i
< 1 ; i = 1,2, ,k

GRFICOS ADECUADOS para variables cualitativas

Grfico sectorial:

Crculo dividido en
porciones que
representan las
frecuencias relativas o
porcentajes de una
poblacin o muestra
perteneciente a diferentes
categoras.

Como sabemos, un crculo
contiene 360 grados. Para
construir un grfico sectorial,
se multiplica por 360 la
frecuencia relativa de cada
categora, para obtener la
medida del ngulo
correspondiente

Defectos en lnea de armado A12
(150 productos examinados)



Defectos del producto

Cul es Defecto ms frecuente?

Cunto mide el ngulo de sector Defecto Manchado?

Abollado
5,33%
Astillado
15,33%
Doblado
8,00%
Manchado
37,33%
Rayado
30,00%
Otros
4,00%


Cecilia Larran R. Estadstica Descriptiva Ingeniera Pgina 20

Grfico de Barras Separadas

Defectos en lnea de armado A12
(150 productos examinados)

Diagrama de Pareto

Herramienta bsica de la mejora de calidad. Muy til para priorizar los problemas o las
causas que los generan.
Su fundamento parte de considerar que un pequeo porcentaje de las causas producen
la mayora de los efectos. Se tratar de identificar ese pequeo porcentaje de causas
vitales para actuar prioritariamente sobre l.

Defectos en lnea de armado A12

Defecto frecuencia % frec. Acum. % acumulado

Manchado 56 37,33 56 37,33
Rayado 45 30,00 101 67,33
Astillado 23 15,33 124 82,67
Doblado 12 8,00 136 90,67
Abollado 8 5,33 144 96,00
Otros 6 4,00 150 100
TOTAL 150 100,0%


Se calculan solamente para el diagrama
Pareto (en este tipo de variable)
F
r
e
c
u
e
n
c
i
a
60
50
40
30
20
10
0
6
45
56
12
23
8
Defecto del producto
Otro Rayado Manchado Doblado Astillado Abollado


Cecilia Larran R. Estadstica Descriptiva Ingeniera Pgina 21

Descripcin estadstica de una variable cuantitativa
Para los ejemplos 2 y 3 identifique la unidad de estudio

Ejemplo 2 (pg. 16) variable discreta































Nmeros de averas en
Febrero.2014 de 40 centrales
Elctricas.

0 1 0 0 2
2 1 3 1 1
0 1 1 3 1
2 0 0 0 1
0 0 1 1 0
3 1 1 1 0
0 2 3 4 2
2 0 3 2 2

Tabla de frecuencias

N de
averas Frecuencia Porcentaje
Porcentaje
acumulado
0
13 32,5 32,5
1
13 32,5 65,0
2
8 20,0 85,0
3
5 12,5 97,5
4
1 2,5 100,0
Total
40 100,0

Centrales elctricas (40). Febrero 2014
Grfico

Centrales elctricas (40). Febrero 2014

N de averas
4 3 2 1 0
R
e
c
u
e
n
t
o
14
12
10
8
6
4
2
0
1
5
8
13
13

Centrales elctricas (40). Febrero 2014

Estadsticos (Medidas de resumen)
N de averas
40
0
1,20
1,00
0
a
1,114
,637
,374
-,445
,733
0
4
,00
1,00
2,00
Vlidos
Perdidos
n
Media
Mediana
Moda
Desv. tp.
Asimetra
Error tp. de asimetra
Curtosis
Error tp. de curtosi s
Mnimo
Mximo
25
50
75
Percentiles
Existen varias modas. Se mostrar el menor de los
valores.
a.



Cecilia Larran R. Estadstica Descriptiva Ingeniera Pgina 22



































Grficos
Nota de Estadstica
Semestre 2 - 2013



Nota
7,0 6,0 5,0 4,0 3,0 2,0 1,0
F
r
e
c
u
e
n
c
i
a
100
80
60
40
20
0
61
86
96
74
53
30
Histograma
Ejemplo 3 variable contnua
Nota de Estadstica
400 alumnos
Semestre 2 - 2013



Tabla de frecuencias


Semestre 2 - 2013
Nota de Estadstica
30 7,5 7,5
53 13,3 20,8
74 18,5 39,3
96 24,0 63,3
86 21,5 84,8
61 15,3 100,0
400 100,0
1 - 2
2 - 3
3 - 4
4 - 5
5 - 6
6 - 7
Total
Vlidos
Frecuencia Porcentaje
Porcentaje
acumulado

Medidas de resumen

Nota de Estadstica
Semestre 2 - 2013



Cecilia Larran R. Estadstica Descriptiva Ingeniera Pgina 23



TABLAS DE FRECUENCIAS Y GRFICOS
Variables cuantitativas

Si las observaciones en un conjunto de datos cuantitativos son discretos
(contables) o si los valores de la variable asumen slo unos pocos valores
distintos, puede ser apropiado armar tablas de frecuencia con valores nicos.

La distribucin de frecuencias (tabla)

- La distribucin de frecuencias para variables cuantitativas discretas es
similar a la de variables cualitativas. Los valores que toma la variable se
ordenan de menor a mayor lo que permite registrar en la tabla las
frecuencias acumuladas. La representacin grfica que se utiliza para este
tipo de variables es barras separadas
Distribucin de frecuencias de la variable X
Nombre de la
variable
X
Frec.
Absoluta
n
i
Frec. Relativa
i
i
n
f =
n

Frec. Abs.
Acumulada
N
i
Frec. Relat.
Acumulada
i
i
N
F=
n

x
1
n
1
f
1
N
1
= n
1
F
1

x
2
n
2
f
2 N
2
= n
1
+ n
2
F
2

x
3
n
3
f
3 N
3
= n
1
+ n
2
+ n
3
F
3
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
x
k
n
k
f
k
N
k
= n F
k
= 1
Total n 1
x
i
= valor que toma la variable. i= 1,2, ,k

Ejemplo 2:
Datos sobre el nmero de averas de 40 centrales elctricas en Feb.2014
0 1 0 0 2 0 0 1 1 0
2 1 3 1 1 3 1 1 1 0
0 1 1 3 1 0 2 3 4 2
2 0 0 0 1 2 0 3 2 2






Cecilia Larran R. Estadstica Descriptiva Ingeniera Pgina 24

Variable X =
Unidad de observacin =
- Cuntas centrales tienen menos de 2 averas?
- Qu porcentajes de centrales tienen 3 o menos averas?
- Qu porcentaje de centrales tienen ms de 3 averas?
- Interprete:
n
2
f
3
N
4
F
4











N de averas
4 3 2 1 0
1
5
8
13 13
N


d
e

c
e
n
t
r
a
l
e
s
12
10
8
5
2
0
TABLA DE DISTRIBUCIN DE FRECUENCIAS

N de averas
X
Frec.
Absoluta
n
i
Frec.
Relativa
f
i
Frec. Abs. Acumulada
N
i
Frec. Relat.
Acumulada
F
i
0 13 0,325 13 0,325
1 26
2
3
4 40
Total 40 1,000

GRFICO DE BARRAS SEPARADA







Grfico de barras separadas








Cuando la variable es continua o el nmero de valores posibles de una variable
discreta sea grande, para construir la tabla de frecuencias, conviene agrupar
los datos intervalos reales. stos agrupan todos aquellos casos contenidos
entre dos valores, conocidos como el lmite superior e inferior.

Ejemplo (variable continua) : En abril. 2013 se recolect informacin sobre la edad (en
aos) de 50 estudiantes seleccionados de una casa de estudio superior. El valor de los
datos, en el orden en que fueron recolectados se presenta a continuacin.





Cecilia Larran R. Estadstica Descriptiva Ingeniera Pgina 25

21 24 29 26 36
18 19 19 25 25
25 31 23 23 23
22 21 22 21 19
25 18 27 21 21
19 25 34 27 33
20 22 19 22 23
19 19 18 19 26
28 20 22 20 21
23 36 23 25 24

Construyendo tablas de frecuencias (intervalos de igual amplitud)
Al construir tablas de frecuencias es necesario tomar las siguientes 3 decisiones:
i) Nmero de clases (intervalos)
Usualmente el nmero de intervalos de una distribucin de frecuencias vara entre 5 y
20, dependiendo principalmente del nmero de casos con los cuales se cuente. La
decisin del nmero de clases es decidida arbitrariamente por quien organiza la
informacin.

Reglas que puede ayudar a decidir el nmero de clases o intervalos:
- Nmero de intervalos = n ; n = nmero de datos, o
- Nmero de intervalos = [1 + 3,3 log n] (frmula de Sturge)

ii) Amplitud de intervalo: Aunque no es comn tener clases o intervalos de
diferentes tamaos o amplitud, la mayora del tiempo es preferible tener la
misma amplitud de intervalo en todos ellos.
Para determinar esta amplitud (clases o intervalos tienen igual amplitud), primero se debe encontrar la
diferencia entre el mayor y el menor de los datos en los datos. Luego, la amplitud aproximada
es obtenida dividiendo esta diferencia por el nmero deseado de clases o intervalos.
valor mximo - valor mnimo
Amplitud del intervalo =
nmero de intervalos



iii) Lmite inferior de la primera clase o punto de partida
Cualquier nmero que sea igual o menor que el ms bajo de los valores del conjunto de
datos ser conveniente para ser usado como el lmite inferior del primer intervalo.
En el ejemplo (Edad): n = 50 mx = 36 mn = 18
Si utilizamos nmero de intervalos = [1 + 3,3 log (50)] = 6
Amplitud =
36 18
= 3
6





Cecilia Larran R. Estadstica Descriptiva Ingeniera Pgina 26


Se lee

Edad

n de alumnos
14 alumnos con edades entre 18 y menos de 21 aos 18 21 14
17 alumnos con edades entre 21 y menos de 24 aos 21 24 17
24 27 10
27 30 4
30 33 1
4 alumnos con edades entre 33 y 36 aos 33 36 4
Total = 50

Frecuencias relativas y porcentaje
Es posible calcular la frecuencia relativa y el porcentaje de las distribuciones cuantitativas del
la misma forma que en las distribuciones cualitativas o discretas.

Edad Marca de clase
x
i
Frec. Absoluta
n
i
Frec. Relativa
f
i
Porcentaje
18 21 19,5 14 0,28 28
21 24 22,5 17 0,34 34
24 27 25,5 10 0,20 20
27 30 28,5 4
30 33 31,5 1
33 36 34,5 4
Total = 50 1,00 100%
Tambin se pueden registrar las frecuencias acumuladas


limite inferior +limite superior
marca de clase =
2

Representacin grfica de distribuciones de frecuencias con datos en intervalos
Las representaciones grficas ms frecuentes de una tabla de frecuencias donde los
datos han sido agrupados en intervalos son el histograma o el polgono de
frecuencias.

HISTOGRAMA Edad en aos

Muestra de 50 estudiantes de una universidad (abril 2013)

Edad
39 36 33 30 27 24 21 18 15
N


e
s
t
u
d
i
a
n
t
e
s
20
15
10
5
0
4
1
4
10
17
14
Histograma
Donde cada rectngulo
corresponde con una
clase y la altura es
proporcional a la
frecuencia de dicha
clase o intervalo.



Cecilia Larran R. Estadstica Descriptiva Ingeniera Pgina 27

Formas de histogramas
Un histograma puede asumir diferentes formas. Las ms comunes son: simtricos,
asimtricos y uniforme o rectangular.

Simtrico Asimetra Positiva Asimetra Negativa








Interprete los tres histogramas
Observacin: Describir datos utilizando grficos puede ayudar a iluminarnos acerca de las
caractersticas principales de la informacin. Desafortunadamente, tambin pueden ser
utilizados, casual o intencionadamente, para distorsionar informacin y desorientar a quien la
recibe. Las siguientes son dos formas de hacerlo:
1. Cambiar la escala en uno o en ambos ejes (esto es alargando o acortando los ejes)
2. Truncando las frecuencias, es decir, comenzando el eje en un nmero mayor que cero.
Polgono de frecuencias
Grfico alternativo al histograma
Los polgonos de frecuencias se realizan trazando los puntos formados por las marcas
de clase y las frecuencias, y unindolos mediante segmentos.

Polgono de frecuencias (Edad en aos)

Muestra de 50 estudiantes de una universidad (abril 2012)
Edad
39,0 37,5 36,0 34,5 33,0 31,5 30,0 28,5 27,0 25,5 24,0 22,5 21,0 19,5 18,0 16,5 15,0
N


a
l
u
m
n
o
s
20
15
10
5
0
0
4
1
4
10
17
14
0
x
32.5 27.5 22.5 17.5 12.5 7.5 2.5
Simtrica
10
8
6
4
2
0
X
32.5 27.5 22.5 17.5 12.5 7.5 2.5
10
8
6
4
2
0
X
32.5 27.5 22.5 17.5 12.5 7.5 2.5
10
8
6
4
2
0


Cecilia Larran R. Estadstica Descriptiva Ingeniera Pgina 28

Grafico de tendencia

Consumo humano de leche de cabra en Espaa. (millones de litro)

Ao 1990 1991 1992 1993 1994 1995 1996 1997 1998
Consumo 62,5 29,9 31,3 25,2 20,8 16,1 15,8 15,9 16,6
Ao 1999 2000 2001 2002 2003 2004 2005 2006

Consumo 16,2 17,1 15,5 17,6 11,9 11,8 12,3 13,1


- El consumo anual de leche de cabra en el ao 1991 disminuy en 52,16% con
respecto al consumo del ao 1990 (variacin porcentual)
- Determine la variacin porcentual entre los aos 2001 y 2002.

Variacin porcentual =
Final
- 1 100
Inicial
| |

|
\ .

1




Cecilia Larran R. Estadstica Descriptiva Ingeniera Pgina 29

Ejercicios II
En cada uno de los siguientes ejercicios debe indicar cul es: unidad de observacin, la
variable de inters y clasificarla segn naturaleza, T_recorrido y N_medicin.

Ejercicio II-1
El Ingeniero a cargo del control de calidad del agua de una ciudad, es responsable del nivel
de cloracin del agua. Dicho nivel debe acercarse bastante al que exige el Departamento de
Sanidad. Para vigilar el cloro, sin necesidad de verificar cada galn de agua que sale de la
planta, el Ingeniero muestrea diariamente algunos galones, mide el contenido de cloro y
saca una conclusin sobre el nivel promedio de cloracin que tiene el agua tratada ese da.
La tabla anexa exhibe las concentraciones de cloro correspondiente a 30 galones
seleccionados como muestra de un da. A partir de esta muestra diaria el Ingeniero obtiene
sus conclusiones respecto a la poblacin total a la que se le aplic la cloracin.
Diagrama de tallo-hojas
Tabla de Concentraciones de Cloro
en partes por milln (ppm)

16.2 15.7 16.4 15.4 16.4 15.8 16.0 15.2
15.7 16.6 15.8 16.2 15.9 15.9 15.6 15.8
16.1 15.9 16.0 15.6 16.3 16.8 15.9 16.3
16.9 15.6 16.0 16.8 16.0 16.3




(Utilice una amplitud de 0.3 ppm).

Construya una tabla de distribucin de frecuencias y un grfico adecuado.


Ejercicio II-2
En un centro de computacin, el nmero de veces que el computador se detiene, por error
de mquina, diariamente, fue recolectado por un perodo de 70 das. Los datos obtenidos
fueron los siguientes.

N de detenciones del computador por da.
0
1
0
2
0
0
8
3
2
1
2
5
1
0
6
0
0
1
0
4
0
0
0
0
3
0
4
1
1
3
3
3
0
2
1
3
0
1
1
2
0
6
1
2
4
0
2
0
0
0
1
0
2
0
2
0
2
2
5
0
0
3
1
2
0
0
0
0
1
4

- Tabule y grafique los datos adecuadamente.
- Cul es la proporcin de das en que ocurren ms de 3 detenciones?
-
Stem-and-Leaf Plot

Frequency Stem & Leaf

,00 15 .
1,00 15 . 2
1,00 15 . 4
5,00 15 . 66677
7,00 15 . 8889999
5,00 16 . 00001
5,00 16 . 22333
2,00 16 . 44
1,00 16 . 6
3,00 16 . 889

Stem width: 1,0
Each leaf: 1 case(s)



Cecilia Larran R. Estadstica Descriptiva Ingeniera Pgina 30


Ejercicio II-3

Un fabricante de envases de plstico desea analizar cules son las causas que generan los
envases defectuosos que se producen. Se observan 248 envases defectuosos obteniendo:

Coloque el correspondienten
i
en cada barras. Interprete el grfico

Ejercicio II-4
En un proceso de fabricacin de circuitos integrados las causas ms comunes de fallas son: la
contaminacin (1), xido(2), metalizacin (3), la corrosin(4), doping (5) ,los defectos del silicio (6) y
varios (7). En un proceso de control de calidad de estos circuitos las causas de falla de 31 de ellos
han resultado las siguientes:
corrosin xido contaminacin xido
xido varios xido contaminacin
metalizacin xido contaminacin contaminacin
xido contaminacin contaminacin contaminacin
corrosin silicio varios contaminacin
contaminacin contaminacin varios contaminacin,
contaminacin doping xido xido
metalizacin contaminacin contaminacin

Se pide: Construir una distribucin de frecuencias y confeccione dos grficos adecuados.







Defectos
Color Fuera de
medida
Rosca Rotura Desbalanceo Aplastamiento
F
r
e
c
u
e
n
c
i
a
100
80
60
40
20
0
P
o
r
c
e
n
t
a
j
e
100%
80%
60%
40%
20%
0%
100,00% 99,60%
97,18%
92,34%
76,61%
60,48%
Diagrama de Pareto


Cecilia Larran R. Estadstica Descriptiva Ingeniera Pgina 31

Ejercicio II-5
Al responsable en control de industrial de una empresa, debe analizar informacin entregada en un
histograma de la duracin (tiempo hasta fallo en horas) de un test de fiabilidad 150 dispositivos
electrnicos idnticos.

a. Construya la tabla de frecuencias (absolutas, relativas, absolutas acumulada y relativas
acumulada)
b. Aproximadamente, cul es la duracin ms frecuente?
c. Qu porcentaje de dispositivos duraron entre 600 y menos de 1400 horas?
d. Qu porcentaje de dispositivos duraron menos de 900 horas? (aprox.)
e. Qu porcentaje de dispositivos duraron entre 400 y 1500 horas? (aprox.)
f. Determine entre que intervalo se encuentra el 50% de los dispositivos con mayor
duracin.
|
50%
|
50%
|
Duracin (hrs)

0 1600
Mn Mx

g. Complete la tabla siguiente y realice un grfico adecuado:

Duracin Frecuencia Porcentaje
Poca ( < 400 h)
Media (400 y menos de 1000 h)
Bastante ( > 1000 h)
Total 150 100



Duracion
2000 1800 1600 1400 1200 1000 800 600 400 200 0
N


d
e

d
i
s
p
o
s
i
t
i
v
o
s
60
50
40
30
20
10
0
3 3
6
18
21 21
27
51
Histograma


Cecilia Larran R. Estadstica Descriptiva Ingeniera Pgina 32


Ejercicio II-6
Se seleccionaron de un proceso de fabricacin, aleatoriamente 270 ladrillos y se llev a
cabo una prueba para determinar la resistencia transversal de stos. Se obtuvieron los
siguientes datos:
Resistencia (MN/m
2
)
X

n
i
1.5 3.5
3.5 4.5
4.5 5.5
5.5 6.5
6.5 7.5
7.5 8.5
8.5 9.5
9.5 10.5
10.5 11.5
11.5 14.5
2
4
24
81
78
51
18
9
2
1

- Construya un grfico adecuado
El histograma es especialmente adecuado para representar tablas de frecuencias en el
caso de variables de nivel por lo menos intervalar (o discretas con un gran nmero de
valores observados distintos). Este grfico consiste en una serie de barras adyacentes
cuyas superficies son proporcionales a la frecuencia del intervalo sobre el cual se levantan.
Si los intervalos son de igual amplitud, los rectngulos sern de altura proporcional a la
frecuencia correspondiente. Es decir, si la amplitud del i-simo intervalo es a
i
y su
frecuencia n
i
la barra deber tener una altura h
i
que satisfaga:

i i i
i
i
i
ah = kn
n
h = k
a

donde k es cualquier constante, aunque la misma para cada intervalo.
n
i
frecuencia absoluta del intervalo i; h
i
frecuencia absoluta corregida

Se corrige la frecuencia solamente para graficar el histograma, cuando
existen intervalos de distinta amplitud (no es usual intervalos de distinta amplitud)

- Determine el porcentaje de ladrillos con resistencia inferior a 8,5 MN/m
2


- Determine el porcentaje de ladrillos con resistencia superior a 5 MN/m
2







Cecilia Larran R. Estadstica Descriptiva Ingeniera Pgina 33


Ejercicio II-7
En un estudio sobre el nivel de ruido en un concierto de rock se toma una muestra de 60
valores, medidos en decibelios y en distintos momentos del concierto.
Los datos obtenidos se encuentran el diagrama tallo-hojas siguiente

NIVEL DE RUIDO

Frequency Stem & Leaf

1,00 8 . 3
3,00 8 . 789
22,00 9 . 0000111123333334444444
21,00 9 . 555566677777777889999
11,00 10 . 00001122234
2,00 10 . 57

Encuentre:
- Valor mnimo
- Valor mximo
- El % de mediciones inferior a 91 db.
- El % de mediciones superior a 100 db.

Ejercicio II-8

Con el propsito de mejorar el tiempo de entrega desde una embotelladora de refrescos a mquinas
vendedoras de una universidad, se ha obtenido 40 datos.

X:Tiempo de entrega en minutos
9,45 24,45 31,75 35,00 25,02 16,86 14,38 9,60 24,35 37,50
17,08 37,00 41,95 11,66 21,65 17,89 69,45 10,30 34,93 46,59
44,88 54,12 56,63 22,13 21,15 10,02 14,88 16,97 17,73 21,84
24,45 33,66 37,10 39,73 44,29 55,12 56,63 29,41 24,45 9,45

Organice los datos en una tabla de frecuencias con igual amplitud y confecciones un grfico
adecuado

Tiempo de
entrega
(min)

xi
Frecuencia
Absoluta
ni
Porcentaje
9,45 - 19,45 14,45 13 32,5




59,45 - 69,45 64,45 1 2,5
Total 40 100,0



Cecilia Larran R. Estadstica Descriptiva Ingeniera Pgina 34



Ejercicio II-9
En el departamento de montaje de una industria se producen diariamente cierta
cantidad de productos defectuosos. Para estudiar ese fenmeno se decidi realizar
un anlisis de Pareto.
Durante cuatro meses de observacin se recogieron datos sobre el tipo de defectos
de los productos y se contabilizaron un total de 350 defectos.




a. Qu representa el 84% (polgono)?

b. Complete la tabla de frecuencias siguiente:
Tipo de defectos N de defectos porcentaje
Piezas errneas

Revestimiento araado

Montaje defectuoso

Pieza faltante

Rugosidad superficial

Otras causas

Total



N


d
e

d
e
f
e
c
t
o
s
100
80
60
40
20
0
P
o
r
c
e
n
t
a
j
e
100%
80%
60%
40%
20%
0%
100%
98%
92%
84%
74%
42%
Tipos de defectos
Otras causas Rugosidad
superficial
Pieza faltante Montaje
defectuoso
Revestimiento
araado
Piezas
errneas


Cecilia Larran R. Estadstica Descriptiva Ingeniera Pgina 35

Medidas de Resumen

Entre las medidas que permiten resumir informacin proveniente de una
poblacin o muestra, podemos considerar: medidas de posicin, de dispersin o
variabilidad, de forma y de asociacin
Medidas de posicin: Tendencia Central - Percentiles

Tendencia Central: Moda - Promedio - Mediana
Son ndices de localizacin central, empleados en la descripcin de las
distribuciones de frecuencias. Las ms usadas son la moda, la mediana y el
promedio.

Moda (M
o
) : Es el valor de la variable que ocurre ms frecuentemente

Ejemplo (variable cualitativa): En una empresa se ha medido la satisfaccin
laboral de una muestra de empleados.

Satisfaccin Laboral N de empleados
Muy satisfechos 20
Satisfechos 25
Moderadamente satisfechos 22
Insatisfechos 18
Muy insatisfechos 10

En este caso la moda corresponde a la categora satisfechos. M
o
=satisfechos
Si la variable se encuentra es cuantitativa, la moda ser la magnitud ms frecuente.
Ejemplo (variable cuantitativa) : En la medicin de responsabilidad en un grupo de
postulante a un cargo de ejecutivo, se han encontrado los siguientes puntajes : 81, 83,
83, 85, 86, 86, 87, 88, 90, 91, 92, 94, 95, 95, 95, 95, 96, 96, 97, 99, 101, 105, 107, 108,
109, 110, 115, 118, 120.
En este caso, la moda corresponde al puntaje 95.


Cecilia Larran R. Estadstica Descriptiva Ingeniera Pgina 36

Y si los datos estn agrupados en intervalos de clase, la moda ser el punto medio del
intervalo ms frecuente. La moda para datos agrupados en intervalos en tablas de
frecuencia, no es un valor exacto porque vara con las diferentes maneras de agrupar
una distribucin.
Ejemplo: El sueldo mensual de un grupo de trabajadores textiles se distribuye como
indica la tabla a continuacin.

Sueldo Marca de clase
x
i
N de trabajadores
n
i
300.000 350.000 325.000 13
350.000 400.000 375.000 18
400.000 450.000 425.000 24
450.000 500.000 475.000 20
500.000 550.000 525.000 15

En este caso la moda es 425.000 pesos, por ser el punto medio del intervalo ms
frecuente.
A menudo encontramos distribuciones bimodales (con dos modas).
Limitacin de la moda: no sabemos qu ocurre con el resto de la distribucin de
datos.
Promedio Aritmtico (o media Aritmtica)

La media aritmtica o promedio aritmtico:
En general se utiliza letras maysculas para denotar a las variables, y
letras minsculas para los valores que toma las variables (datos).
Sea X la variable cuantitativa de inters y sea x
1
, x
2
, , x
n
los n valores
que posee dicha variable. El promedio aritmtico se obtiene sumando los
valores de X y dividiendo luego por el nmero de datos.
n
i
1 2 3 n i =1
x
x +x +x ...+x total
x = =
n n n



Cecilia Larran R. Estadstica Descriptiva Ingeniera Pgina 37

Ejemplo: Los siguientes valores indican el tiempo necesario en minutos para
llegar a su trabajo de un grupo (muestra) de 15 empleados de un ministerio
pblico.
25 30 50 60 35 65 48 90 75 50 22 45 25 35 50
X = Tiempo necesario en min. para llegar al trabajo
n = 15
Sumatoria =

=
n
1 i
i
x = 705
705
x =
15

= 47 min


Observacin: La media de la poblacin se define de la misma forma que
la media muestral pero se utiliza el smbolo para denotarla:

N
i
1 2 3 N i 1
x
x +x +x ...+x
N N
total
N
=
= = =



Si los datos se encuentran en una distribucin de frecuencias, es
necesario modificar la frmula:
n
n x
x
k
1 i
i i
=
= donde x
i
representa el
valor de la variable si es discreta o la marca de clase si los datos
estn tabulados en k intervalos.
Ejemplo: En un estudio de consumo de frutas, se entrevist a 250 personas, una
de las preguntas realizadas fue aproximadamente, cuantas frutas consumes
diariamente? La informacin obtenida a esa pregunta se muestra a
continuacin:







n = 250
i i
i
xn
x =

= 2,184 frutas



Cantidad de frutas
X
i
n de personas
n
i

i i
x n
0
1
2
3
4
5
22
50
90
49
26
13
0
50
180
147
104
65
Total n = 250



Cecilia Larran R. Estadstica Descriptiva Ingeniera Pgina 38

Ejemplo: Datos agrupados en intervalos (datos secundarios)
Sueldo mensual (X) de un grupo de trabajadores textiles.
Sueldo
(miles de $)
Marca de clase
x
i
N de trabajadores
n
i

x
i
n
i

300 350 325 13 4225
350 400 375 18
400 450 425 24
450 500 475 20
500 550 525 15 7875
Total 90 38550

X = Sueldo mensual
n
Total =
i i
i
xn
x

90 38550 38550
= 428,33
90
$428.333


Propiedades de la media aritmtica o promedio aritmtico:
i. mnimo <

x
< mximo

ii. El promedio de una constante es la constante. (demostracin tarea)
iii. Si a los valores de una variable se les suma una constante, el promedio aumenta en
esa misma magnitud. (demostracin tarea)

iv. Si los valores de una variable son multiplicados por una constante, el promedio se
amplificarn en la misma magnitud constante.

a, b ctes Y = a + bX Y = a + bX ; .

(Demostracin tarea)

Del ejemplo anterior: Si a los trabajadores de la empresa textil le aumentan el sueldo en:

Complete
(Caso 1) $50.000,0 (Caos 2) 15% (caso 3) 7% + un bono
fijo de $30.000
Sueldo actual
Y
(1)
= X + 50

(1)
= Y
Y
(2)
= 1,15X

(3)
= Y
Y
(3)
= 1,07X + 30

(3)
= Y
(m $) x = 428,333
Y = Sueldo aumentado



Cecilia Larran R. Estadstica Descriptiva Ingeniera Pgina 39

Mediana (M
e)

Mediana: es un valor tal que, ordenados en magnitud los n datos de una
variable X, el 50% es menor o igual que ella, y el 50% es mayor o igual.

Para el clculo de la mediana la variable debe ser por lo menos ordinal

En datos no agrupados (directos), con n impar, el valor central es la mediana.

Ejemplo: 3, 5, 7, 8, 9, 12, 13, 15, 20. n = 9 datos. La mediana es el valor 9.
Se puede observar que la mediana es el valor que ocupa el lugar
1+ n
2

En datos no agrupados con n par, el valor de la mediana ser el punto medio
entre los dos valores centrales.
Ejemplo: 5, 7, 9, 10, 14, 16, 17, 18. n = 8 datos; la mediana es el valor 12.

Es preciso ordenar los datos de menor a mayor para hacer el clculo.
Ejemplo: Datos tabulados. Variable discreta
"X: Nmero de avera diarias en un taller

X
Frec. abs.
n
i
Frec. abs. acum.
N
i
0
1
2
3
4
5
6
40
26
14
6
3
0
1
40
66




Total n = 90


El valor de la mediana en datos tabulados (agrupados) en intervalos
se analizar junto con el tema PERCENTILES. El clculo de la M
e
es
aproximado y se determina a travs de una frmula que se obtiene de
la tabla de distribucin de frecuencias acumuladas.
M
e
es el valor que ocupa el
lugar
1+ n
= 45,5
2
| |
|
\ .
Mediana = 1 avera.
Interpretacin:





Cecilia Larran R. Estadstica Descriptiva Ingeniera Pgina 40

Comparacin entre x , M
e
y M
o

Desde un punto de vista descriptivo las tres medidas proporcionan
informacin complementaria, sus propiedades son distintas:
Estadsticos de tendencia central Observaciones
Media
aritmtica
x
n
i
i =1
x
total
x = =
n n

- El nivel de medicin de la
variable X sea por lo menos en
escala de intervalos.
- La media es muy sensible
cuando existen datos atpicos
o extremos.
- Es preferible utilizar el promedio
aritmtico como medida de
resumen si los datos son
homogneos.
Mediana
M
e

Es un valor tal que, ordenados
en magnitud los n datos de
una variable X, el 50% es
menor o igual que ella, y el
50% es mayor o igual.

- La mediana

utiliza menos
informacin que la media, ya
que solo tiene en cuenta el
orden de los datos y no su
magnitud, por lo tanto, para
poder calcular la mediana el
nivel de medicin de la variable
X debe ser por lo menos en
escala ordinal.
- La mediana se ve menos
alterada por los datos atpicos o
extremos.
Moda
M
o


Es el valor de la variable que
ocurre ms frecuentemente


- Para el clculo de la moda la
variable puede tener cualquier
nivel de medicin, luego es la
nica medida de tendencia
central que se puede calcular si
el nivel de medicin de la
variable X es en escala nominal.
X = Mediana

asimetra, lo que sugiere heterogeneidad en los datos.

en este caso la Mediana

es la medida de tendencia central
adecuada para resumir los datos.




Cecilia Larran R. Estadstica Descriptiva Ingeniera Pgina 41

Simtrica





X

= M
e
= M
o

Asimetra positiva





M
o
< M
e
< X
Asimetra Negativa





X < M
e
< M
o



Ejercicios III
Ejercicio III-1
Un fabricante de un dispositivo para cierto artculo electrnico informa en su propaganda
que la vida til de su producto es superior a 5 aos.
Una muestra aleatoria de 90 unidades vendidas hace 10 aos, revel la siguiente
distribucin de las duraciones:
Duracin Frecuencia
0 - 2 10
2 4 20
4 6 25
6 8 22
8 10 13

a. Determine la duracin promedio
b. Qu porcentaje de unidades duraron ms de 5 aos? Aprox.
Ejercicio III-2
En la fabricacin de semiconductores, a menudo se utiliza una sustancia qumica para
quitar el silicio de la parte trasera de las obleas antes de la metalizacin. En este proceso es
importante la rapidez con la que acta la sustancia. Se han comparado dos soluciones
qumicas, utilizando para ello dos muestras de obleas para cada solucin. La rapidez de
accin observada es la siguiente

Solucin 1: 9,9 9,4 9,3 9,6 10,2 10,6 10,3 10,0 10,3 10,1
Solucin 2: 10,2 10,6 10,7 10,4 10,5 10,0 10,2 10,7 10,4 10,3

a. Indique cuales son las variables involucradas en el problema y clasifquelas.
b. Complete el cuadro siguiente (realice comentarios):

Solucin n Promedio Mediana
1
2
aaaaaaa


x
32.5 27.5 22.5 17.5 12.5 7.5 2.5

Simtrica
10
8
6
4
2
0

X
32.5 27.5 22.5 17.5 12.5 7.5 2.5
10
8
6
4
2
0
X
32.5 27.5 22.5 17.5 12.5 7.5 2.5
10
8
6
4
2
0


Cecilia Larran R. Estadstica Descriptiva Ingeniera Pgina 42

Ejercicio III-3
Media Ponderada o Promedio Ponderado
Sean x
1
,x
2
,....,x
n
, n datos y sea los nmero w
1
,w
2
,....,w
n
, los pesos correspondiente a
cada x
i
i = 1,2,....n; con a lo menos un w
i
> 0. Entonces el promedio ponderado de los
datos, est dado por:

Si cada observacin tiene la misma ponderacin, entonces el promedio y el promedio
ponderado son iguales.

Ejemplo: Las notas parciales de Estadstica I de un alumno son:

P1 (25%) P2 (35%) P3 (40%)
4,2 5,7 2,1

Promedio =

Ejercicio III-4
Promedio estratificado

X = Sueldo mensual (miles de $)
Planta Santiago (1) Concepcin (2) Antofagasta (3)
Promedio
1
x
=
568,320
2
x
=
665,210
3
x
=
480,715
N de trabajadores n
1
= 215 n
2
= 180 n
3
= 96
n = n
1
+ n
2
+ n
3
(suponga que se observ una muestra representativa de cada planta)

k
i i
i=1
estr
n x
X = =
n










Cecilia Larran R. Estadstica Descriptiva Ingeniera Pgina 43

Cuartiles Quintiles Deciles - PERCENTILES
Son medidas estadsticas que dividen una serie ordenada de observaciones en
4, 5, 10, 100 partes iguales.

Si dividimos en 4 partes iguales, tenemos los cuartiles (Q
k
) 1, 2 y 3. Cada parte
le corresponde un 25%.

|
25%
|
25%
|
25%
|
25%
|
Mn Q
1
Q
2
Q
3
Mx

Si dividimos en 5 partes iguales, tenemos los quintiles (q
k
) 1, 2, 3 y 4. Cada
parte le corresponde un 20%.
|
20%
|
20%
|
20%
|
20%
|
20%
|
Mn q
1
q
2
q
3
q
4
Mx

Si dividimos en 10 partes iguales tenemos los deciles (D
k
)

Los Percentiles P
p
son los valores que dividen un conjunto de datos
ordenados de menor a mayor en 100 partes con igual (aproximadamente)
nmero de datos.

p% (100 - p)%
| | |
x
(1)
P
p
x
(n)

Mn Mx


Si dividimos en 10 partes iguales tenemos los deciles (D) y en 100 partes
iguales, los percentiles (P
p
).

p% (100 - p)%
| | |
x
(1)
P
p
x
(n)

Mn. Mx.

Entre mn y P
p
se encuentra el p% de los datos o entre P
p
y mx se
encuentra el (100 p)% de los datos.



Cecilia Larran R. Estadstica Descriptiva Ingeniera Pgina 44

Recordemos se dividimos la serie de datos ordenada en dos partes iguales, tenemos
la mediana (M
e)

Tenemos: Q
1
= P
25
M
e
= Q
2
= D
5
= P
50
Q
3
= P
75
q
1
= D
2
= P
20
q
2
=

q
3
=
q
4
=

Clculo de Percentiles (datos directos)

Ejemplo: Los siguientes datos corresponden a los puntajes obtenidos por 14
alumnos en un examen de Fsica II. (0 100 puntos)


84 52 85 61 74 77 65 63 57 64 72 55 68 76
Diagrama de puntos

Puntaje
Clculo percentiles P
p

En la definicin de percentil en un conjunto de datos es el valor tal que el p% de los
datos es menor o igual que l y el (100 p)% de los datos es superior o igual a l,
puede que ningn valor cumpla exactamente la definicin. Existen diversas formas de
interpolar para el clculo del P
p
, en este curso vamos a utilizar el mtodo AEMPIRAL
explicado en la pgina 22 de texto Probabilidad y Estadstica. Douglas C. Montgomery
y George C. Runger (1996)

1
ro
) Se ordenan los n datos de menor a mayor

2
do
) P
p
es el valor que ocupa el lugar j =
np
100
. El mtodo AEMPIRAL asigna la media
de x
(j)
y x
(j+1)
cuando j es un nmero entero, y asigna el valor que ocupa la
posicin siguiente a la parte entera de j cuando j =
np
100
es un nmero decimal



Cecilia Larran R. Estadstica Descriptiva Ingeniera Pgina 45

Del ejemplo: P
50
n = 14 p = 50 percentil 50 est se encuentra en el
lugar j=
14 50
= 7
100

P
50
=
65 68
2
+
= 66,5 = M
e
el 50% de los estudiante
obtuvieron puntaje entre 52 y 66,5 puntos
- Entre qu valores e encuentra el 25% de los mejores puntajes?

- Determine el percentil 75 e interprete. (Resp: P
75
= 76 AEMPIRAL)

Clculo de percentiles datos tabulados en intervalos:

Los valores que toman los percentiles cuando tenemos la informacin agrupada
(intervalos reales) en una tabla de frecuencias de una variable cuantitativa son
aproximados.
Mediante interpolacin lineal en el grfico de frecuencias acumulada (ojiva) se
llega a la frmula del percentil P
p.
j-1
p inf j
j

np
100
- N
P = lim +amplitud
n
j


Ejemplo: clculo percentil 50 (mediana)

Puntaje en un test de aptitud










Puntaje
X
N de
sujetos
n
i
Frecuencias acumuladas
N
i
(absoluta)
F
i
(relativa)
15 20 8 8 0,200
20 25 7 15 0,375
25 - 30 14 29 0,725
30 35 6 35 0,875
35 40 3 38 0,950
40 45 2 40 1,000
n = 40



n = 40
lugar
np
100
=
n 50
20
100

=
el percentil 50 o
mediana
aproximadamente se
encuentra en el lugar 20,
observando la columna N
i

de frec. acumuladas o el
grfico ojiva, el valor que
ocupa el lugar 20 se
encuentra en el tercer
intervalo.
P
50
= M
e
e [25, 30)



P
p
se encuentra en el
intervalo j lugar np/100
lim
infj
= valor inferior de
intervalo j
N
j-1
frec. Abs. acumulada
anterior al intervalo j
n
j
= frecuencia abs. del
intervalo j
Intervalo j


Cecilia Larran R. Estadstica Descriptiva Ingeniera Pgina 46

DISTRIBUCIN DE FRECUENCIA ACUMULADA
Puntaje
X
Frec. Abs. Acumulada
N
i
< 15 0
< 20 8
< 25 15
< 30 29
< 35 35
< 40 38
< 45 40

OJ IVA (POLGONO DE FRECUENCIAS ACUMULADAS)
Puntaje
P
50
e [25, 30) 25 es el lmite inferior del intervalo j
30 25 = 5 es la amplitud del intervalo j


intervalo j
Hay 14 sujetos (frec, abs.) con puntaje en el intervalo j

frec. abs. acumulada anterior al intervalo j es 15
La frmula que entrega la interpolacin lineal para el clculo de percentiles con
datos agrupados en intervalos reales es:

j-1
p inf j
j

np
100
- N
P = lim +amplitud
n
j


Interpolando
Linealmente
Se utiliza
cuando no se
tienen los
datos de
cada unidad
de
observacin


Cecilia Larran R. Estadstica Descriptiva Ingeniera Pgina 47

Aplicando la frmula de percentil para datos agrupados
50
20 15
P 25 5 26, 79
14
puntos

| |
= + =
|
\ .

Interpretacin .
- Suponga que al 15% de los puntajes ms altos pasan a una segunda etapa,
a partir de qu puntaje se va a realizar el corte para seleccionar a dichos
sujetos?.

- Determine e interprete el valor del percentil 10.

Ejercicios IV
Ejercicio IV-1
El responsable en control de industrial de una empresa somete a un test de fiabilidad 150
dispositivos electrnicos idnticos y anota su duracin (tiempo hasta fallo en horas).
La recogida de datos lleva al histograma siguiente:



Duracion
2000 1800 1600 1400 1200 1000 800 600 400 200 0
N


d
e

d
i
s
p
o
s
i
t
i
v
o
s
60
50
40
30
20
10
0
3 3
6
18
21 21
27
51
Histograma


Cecilia Larran R. Estadstica Descriptiva Ingeniera Pgina 48

a. Indique la variable de inters y clasifquela segn naturaleza, tamao del recorrido
y nivel de medicin.
b. Entre qu valores se encuentra el 30% de los dispositivos de mayor duracin?
c. Qu porcentaje de dispositivos tienen duracin entre 200 y menos de 1000
horas?
d. Qu porcentaje de dispositivos tienen duracin entre 600 y 950 horas?
e. Dibuje en el histograma el tiempo medio de fallo, la mediana y la moda.
f. El promedio es una medida adecuada para resumir la duracin de los
dispositivos? Justifique su respuesta.

Ejercicio IV-2
En una industria, se realizan peridicamente un anlisis de la medicin del trabajo con el
fin de determinar el tiempo requerido para generar una unidad de produccin. En una
planta de procesamiento se registr durante 20 das el nmero de horas-trabajador
totales requeridas para realizar cierta tarea. Los datos recogidos son:

128 119 95 97 113 109 124 132 146 128 103 135
124 131 133 131 100 112 111 150

a) Determine las medidas de tendencia central. Interpreta resultados.
b) Cunto tiempo (horas-trabajador) requieren como mximo el 25% de los das que
demoraron menos en realizar la tarea?. Cunto tiempo (horas-trabajador) requieren
como mnimo el 25% de los das con mayor demora en realizar la tarea?
c) Indique qu medida de tendencia central puede ser representativa
d) Determine el valor de (cuartil 3 cuartil 1). Cmo puede interpretar esa diferencia?
e) Construya un diagrama de caja (grfico basado en los cuartiles)



Grfico de cajas (Tukey fue su creador)
Es un grfico que suministra informacin sobre los valores mnimo y mximo, los
cuartiles de Tukey Q1, Q2 o mediana Q3, la existencia de valores atpicos y la
simetra de la distribucin.








Se sabe que un dato es atpico, si su
valor no se encuentra en el intervalo

(Q
1
1,5RI , Q
3
+ 1,5RI)

RI = Q
3
Q
1




Cecilia Larran R. Estadstica Descriptiva Ingeniera Pgina 49

- Es necesario tener datos directos (sin agrupar en intervalos) para realizar
el grfico de cajas.
- Este grfico es til para hacer comparaciones rpidas entre 2 o ms
conjuntos de datos.
- La primera bisagra de Tukey (similar al cuartil 1) es el valor que ocupa la
posicin intermedia entre la mediana el valor ms pequeo de la
distribucin; la segunda bisagra es la mediana; la tercera bisagra (similar
al cuartil 3) es el valor que ocupa la posicin intermedia entre la mediana y
el valor ms grande de la distribucin.

MEDIDAS DE DISPERSIN ( O VARIABILIDAD)

Las medidas de tendencia central (promedio, mediana, moda) y los percentiles,
dan informacin incompleta, acerca de las observaciones.
Ejemplo: Los puntajes (X) obtenidos en una Test que mide capacidad de
abstraccin por 2 grupos de alumnos son los siguientes:

Grupo 1 4 3 5 6 4 5 5 7 5 6
Grupo 2 1 4 3 5 6 8 2 7 5 9
En ambos casos el promedio aritmtico o media aritmtica es 5 (x = 5) , pero
sus grficos son distintos
Diagramas de puntos





Los diagramas de ambos grupos muestran que los puntajes se distribuyen
simtricamente respecto al 5, pero en el grupo 1 existe una menor dispersin
que en el grupo 2, es decir, los grupos tienen igual promedio pero la variabilidad
de los puntajes respecto a la media es distinta.
Las medidas de variabilidad indican la dispersin de los datos obtenidos por los
sujetos o las unidades de medicin. Cuando los datos estn con baja dispersin
se dice que es homogneo. Cuando estn altamente dispersos se dice que es
heterogneo.
Las medidas de dispersin ms utilizadas son las siguientes:



Cecilia Larran R. Estadstica Descriptiva Ingeniera Pgina 50

Amplitud o rango o recorrido, rango intercuartlico, desviacin estndar,
varianza y coeficiente de variacin.

Rango o recorrido: Es la distancia en la escala de medidas entre los valores
mayor y menor. Rango = valor mximo valor mnimo

En el grupo 1: rango es 7 3 = 4 y en el grupo 2 rango es 9 1 = 8 lo que implica que
el segundo grupo tiene puntajes ms dispersos.
El rango utiliza poco debido a marcada inestabilidad. Si hay un valor extremo en la
distribucin se tendr la impresin de que la dispersin es grande, cuando en realidad
si omitisemos ese valor podramos concluir que es una distribucin compacta.

Rango Intercuatlico (RI): se define como la diferencia entre el tercer y el primer
cuartel, RI = Q
3
Q
1
, es la longitud del 50% central de la distribucin de datos
Q
3
= P
75
Q
1
= P
25

RI se usa con mayor frecuencia acompaando a la mediana cuando la
presencia de valores extremos hace poco recomendable el uso del
promedio.
Defectos. No permite hacer una interpretacin precisa de un valor dentro de una
distribucin.
No interviene en relaciones matemticas importantes en la inferencia estadstica.

Desviacin estndar o desviacin tpica
(medida de dispersin asociada al promedio aritmtico)
Es la raz cuadrada de la media de las desviaciones al cuadrado.

Dado un conjunto (o muestra) de datos x
1
, x
2
, ,x
n
de una variable X con nivel
de medicin en escala de intervalos o de razn, se define la desviacin
estndar o desviacin tpica como el promedio de las desviaciones d
i
de los
valores x
i
respecto a su promedio aritmtico.

Desviacin estndar:
n
2
i
i =1
(x - x)
s =
n



La desviacin estndar toma valores no
negativos y mide la dispersin: a mayor
desviacin estndar mayor dispersin.



El cuadrado de la desviacin estndar s
2
, se denomina varianza.
Las desviaciones
d
i
= (x
i
- x )
se elevan al cuadrado para
convertirlas en positivas,
adems recuerde que

n
i
i =1
(x - x) = 0
y se extrae la raz cuadrada
para que la medida resultante
tenga la misma unidad de
medicin de la variable.



Cecilia Larran R. Estadstica Descriptiva Ingeniera Pgina 51

n
2
i
2
i 1
s
(x x)
n
=

=


Observaciones:
Notacin de la varianza poblacional
N
2
i
2
i 1
(x )

N

= media de la poblacin N = tamao de la poblacin
- En algunos textos de Estadstica la frmula de la varianza (S
2
)
de la muestra viene dada por:

2
2
i
n
i=1
=
(x -x)
n -1
s



Del ejemplo Puntaje de un Test:

Grupo 1 Grupo 2
x x - x
2
(x - x)
x x - x
2
(x - x)
3 -2 4 1 -4 16
4 -1 1 2 -3 9
4 -1 1 3 -2 4
5 0 0 4 -1 1
5 0 0 5 0 0
5 0 0 5 0 0
5 0 0 6 1 1
6 1 1 7 2 4
6 1 1 8 3 9
7 2 4 9 4 16
Total 50 0 12 50 0 60




llamada varianza corregida o cuasivarianza y
se utiliza en Inferencia Estadstica como la
estimacin de la varianza poblacional o
2
, es
la frmula que vamos a utilizar en este
curso como varianza muestral


Cecilia Larran R. Estadstica Descriptiva Ingeniera Pgina 52

i=1
2
n
i
n
2 i=1
i
2
2
n
i=1
i
x
x -
n
=
n-1
(x -x)
n -1
s

Grupo

n

Promedio
Desviacin
estndar
Varianza
1 10
50
5 ptos
10
=
12
= 1,1547 ptos
9


(1,1547)
2
2 10
50
5 ptos
10
=
60
= 2,5820 ptos
9


(2,5820)
2
Se observa que ambos grupos tienen igual promedio pero los datos del grupo dos tienen mayor
dispersin o variabilidad.

Ventajas de la desviacin estndar
- Permite una interpretacin precisa de los valores dentro de una distribucin.
- La desviacin como el promedio pertenece a un sistema matemtico que
permite su uso en mtodos estadsticos ms avanzados.


Propiedades de la desviacin estndar (demostracin tarea)
- Si se suman a todos los valores de la variable un valor constante, el
promedio queda aumentado en ese valor, pero la desviacin estndar
permanece igual.
- Si se multiplica cada valor original por una constante, tanto el promedio
como la desviacin estndar queda amplificados por ese valor.
- La desviacin estndar de una constante es cero.
Si los datos se encuentran tabulados las frmulas de la varianza y
desviacin estndar son:
Varianza
k
2
i i
2
i 1
x
(x x) n
n - 1
s ;

k
2
i i
i 1
Desviacin estndar: s
(x -x) n
n - 1
=
=


x
i
es el valor

de la variable discreta en una tabla o la marca de clase en el
intervalo i (datos agrupados en intervalos reales)








Cecilia Larran R. Estadstica Descriptiva Ingeniera Pgina 53

Si los datos se encuentran tabulados las frmulas de la varianza y
desviacin estndar son:
Varianza
k
2
i i
2
i 1
x
(x x) n
n - 1
s

k
2
i i
i 1
Desviacin estndar: s
(x -x) n
n - 1
=
=



x
i
es el valor

de la variable discreta en una tabla o la marca de clase en el
intervalo i (datos agrupados en intervalos reales)

Ejemplo: Cierto tipo de resistencias de pelcula de xido metlico son agrupadas
en paquetes de 50 unidades. Se seleccionaron 60 paquetes y se cont el
nmero de resistencias que no cumplan con las especificaciones, resultando la
siguiente tabla


X = N de resistencia defectuosas en cada paquete
X n
i
i i
x n
2
i i
(x - x) n
0 5 0 31,25
1 10 10 22,50
2 16 32 4,00
3 15 45 3,75
4 9 36 20,25
5 3 15 18,75
6 2 12 24,50
Total n = 60 150
150
x =
60

125,00
2
125
s =
59

= 2,119 varianza

Desviacin estndar s = varianza
= 2,119 1, 456 =



Cecilia Larran R. Estadstica Descriptiva Ingeniera Pgina 54











2
k
i i
k
2 i=1
i i
i

i=1
2
k
i=1
i
x n
x n -
n
n
= =
n -1
(x -x)
n -1
Desviacin est andar: Datos tabulados
s




Coeficiente de variacin (CV):
Es una medida relativa de variabilidad


X
X
CV =
|x|
s
Se utiliza para comparar la dispersin de variables que
aparecen en unidades distintas de medicin o que toman valores de
magnitudes muy diferentes, ya que no depende de la unidad de medicin
de las variables.


Ejemplo: La tabla siguiente muestra el peso en kg y la estatura en cm de 10 sujetos

sujeto 1 2 3 4 5 6 7 8 9 10
Estatura (X) 172 175 168 178 159 166 176 180 179 171
Peso (Y) 78 75 70 68 44 66 72 95 70 74

Del ejemplo de resistencia de pelcula de xido metlico:
i
2
i i
i
xn = 150 ; x n = 500


2
(150)
500
60
1,456
59
s

= =



2
k
i i
k
2 i=1
i i
i
2
i=1
2
k
i=1
i
x n
x n -
n
n
= =
n-1
(x -x)
n -1
Varianz a: Datos tabulados
s


Cecilia Larran R. Estadstica Descriptiva Ingeniera Pgina 55

Para analizar cul distribucin de datos es ms homognea, se debe determinar los
coeficientes de variacin de cada variable

Variable Media Desv. tp. CV
100*CV
(% de variabilidad)
Estatura (X) 172,40 6,620 0,038 3,840%
Peso (Y) 71,20 12,541 0,176 17,614%

Interpretacin: La variable estatura es ms homognea (menor % de variabilidad)

Ejercicios V
Ejercicio V-1
En un banco se realiz un estudio para medir el tiempo de atencin necesario para que un cliente
realice una transaccin entre las 12:00 y 14:00 horas. Durante una semana se tomaron los tiempos
de atencin de 10 clientes diariamente, obtenindose los siguientes datos:
Tiempo de atencin
(min)
0 2 2 4 4 6 6 8 8 10 10 12 12 -14
Cantidad de
clientes
17 11 7 7 4 2 2

a. Complete el siguiente cuadro interprete los resultados
Cuartil 1 Mediana Cuartil 3 RI Moda


b. Determine (aprox.) qu porcentaje de clientes demoraron a lo ms tres min en su atencin.
50 p
- 17
100
p = 45%
11
Resp.: 3 = 2 +
| |
|

|
|
\ .

c. Grafique adecuadamente la tabla de frec, y muestre la ubicacin del la mediana y
promedio (realice comentarios)




Ejercicio V-2
Si a es constante, demuestre que:
( )
2
n
i=1
(x ) es mnimo para a = x
i
a




Cecilia Larran R. Estadstica Descriptiva Ingeniera Pgina 56

Ejercicio V-3
Se ha hecho un seguimiento durante una serie de das del nmero de mensajes spam al da
que un cierto usuario recibe en su correo electrnico. Los datos obtenidos se muestran a
continuacin:

N de spam diario 0 1 2 3 4 5 6
Frecuencia observada 35 42 55 40 15 10 3

a. n = (interprete)
b. Determine e interprete las medidas de tendencia central
c. Determine una medida de dispersin adecuada
d. Realice un grfico adecuado



Ejercicio V-4
Se realiz un estudio sobre los costos operacionales (Y), en millones de dlares anuales, en
empresas de dos rubros distintos( A ; B ). Se tomaron muestras de 25 empresas de cada
rubro, obtenindose:
Rubro Y = Costo operacional
i
i
y


i
2
i
y


A
5,3
4,4
4,4
8,2
2,8
1,5
7,5
6,2
8,5
4,8
4,2
7,2
3,9
6,4
5,3
5,4
2,7
7,1
8,2
5,9
3,9
6,4
4,2
7,5
5,2

137,1 833,9
B
3,5
6,1
4,5
4,0
4,1
4,8
3,6
5,4
5,2
3,5
4,6
5,4
2,9
4,3
4,0
4,8
4,7
2,6
5,5
5,4
2,9
3,5
5,9
3,8
4,9 109,9 505,4

Rubro A

Frecuencia Tallo & Hoja

1,00 1 . 5
2,00 2 . 78
2,00 3 . 99
5,00 4 . 22448
5,00 5 . 23349
3,00 6 . 244
4,00 7 . 1255
3,00 8 . 225

Multiplicar por 10
-1
Rubro B

Frecuencia Tallo & Hoja

3,00 2 . 699
0,00 3 .
5,00 3 . 55568
4,00 4 . 0013
6,00 4 . 567889
4,00 5 . 2444
2,00 5 . 59
1,00 6 . 1

Multiplicar por 10
-1


a. Compare la dispersin de los costos de operacin, entre los dos rubros.


Cecilia Larran R. Estadstica Descriptiva Ingeniera Pgina 57


Rubro n
y
s CV % de variabilidad
A
B
Comentarios:
b. Entre qu costos operacionales se ubica el 50% central de las empresas del rubro B?
c. Segn estimaciones, realizadas en las empresas del rubro A, los costos operacionales
aumentarn en un 3%. Determine e interprete la nueva mediana y la nueva desviacin
estndar.


Ejercicio V-5
Se toman muestras, de barras planas de dos tipos de acero, de tamao 80 y 100
respectivamente, para analizar la resistencia a la ruptura. Los siguientes grficos muestran los
tiempos mximos (Y), en minutos que soportan dichas barras antes de fragmentarse, cuando son
sometidos a la tensin:

Muestra 1 Muestra 2

minutos

minutos


a. En base a la informacin contenida en los grficos, determine que distribucin es ms
homognea y que tipo de acero resisti en mejor forma la tensin aplicada. Justifique utilizando
medidas de resumen adecuadas.

b. Si las barras de acero tipo 1, se clasifican de acuerdo a su resistencia en {RB, RM, RA}

Baja resistencia (RB) : si soportan un tiempo mximo inferior a 5,5 minutos
Alta resistencia (RA) : si soportan un tiempo mximo de por lo menos 14 minutos
Resistencia media (RM) : en otro caso.

Muestre grficamente la distribucin de las barras de acuerdo a la nueva clasificacin.





Cecilia Larran R. Estadstica Descriptiva Ingeniera Pgina 58

Medidas de Forma
Coeficiente de asimetra de Fisher
n
3
i
i=1
1
3
n (x -x)
CA= g =
(n-1)(n-2)
s


CA = 0; si la distribucin es perfectamente
simtrica
CA > 0; si hay asimetra positiva
CA < 0; si hay asimetra negativa
Un coeficiente de asimetra mayor que 1
en valor absoluto puede considerarse
alto.
Apuntamiento o curtosis CA
p

Mide lo puntiaguda que es la distribucin
n
4
2 i
i=1
p 2 4
n(n+1) (x -x)
(n-1)
CA = g = - 3
(n-1)(n-2)(n-3) (n-2)(n-3) s



Los valores positivos de CA
p
indicarn un fuerte
apuntamiento (leptocrtica), valores negativos indican una
distribucin ms plana (platicrtica) y si los valores son
cercanos a cero el histograma o polgono de frecuencias
tiene una forma parecida a una campana (mesocrtica)

Estadstica Descriptiva Bivariada

Los datos que tratamos de analizar pueden incluir valores de dos variables
relacionadas entre s, por lo que es interesante su estudio conjunto.
Los elementos de una muestra o de una poblacin pueden clasificarse con dos
criterios o variables diferentes.
Observacin: Se pueden analizar en forma conjunta ms de dos variables.

Caso 1: Descripcin conjunta de dos variables cualitativas

- Tabla de doble entrada o tabla de contingencia
Existen dos tipos de tablas de contingencia:
i) Cuando el objetivo es analizar la posible relacin entre dos
variables cualitativas
ii) Comparar dos o ms grupos en una variable cualitativa
- Grficos adecuados: Barras agrupadas, Sectorial, Barras divididas.
- Medidas de resumen: Asociacin (se estudiarn en la unidad de Inferencia)
-
Ejemplo i) La informacin que se presenta a continuacin en la tabla y grfico,
corresponde a una parte de un estudio realizado con una muestra de
400 trabajadores de una industria metalrgica con el objeto de
investigar si el desempeo en el programa de capacitacin y el
rendimiento en el trabajo estn relacionados.







Cecilia Larran R. Estadstica Descriptiva Ingeniera Pgina 59

Tabla 1

Calificacin
en el trabajo
Desempeo en el
programa de capacitacin

Total
Bajo Medio Alto
Deficiente 23 60 29 112
Promedio 28 79 60 167
Muy buena 9 49 63 121
Total 60 188 152 400

- De los trabajadores que obtuvieron bajo desempeo en el programa de
capacitacin, qu porcentaje tiene calificacin deficiente en el trabajo?

- De los trabajadores que obtuvieron un desempeo alto en el programa de
capacitacin, qu porcentaje tiene calificacin muy buena en el trabajo?

- De los trabajadores que obtuvieron un desempeo alto en el programa de
capacitacin, qu porcentaje tiene calificacin deficiente en el trabajo?




Ejemplo ii) Se desarrollan dos mtodos para fabricar discos de un material
superconductor. Se elaboran 50 discos con cada mtodo y se
comprueba su superconductividad al enfriarlos con nitrgeno lquido.


Cecilia Larran R. Estadstica Descriptiva Ingeniera Pgina 60


Superconductores
(Sin fallas)
Fallas Total
Mtodo 1 31 19 50
Mtodo 2 42 8 50
Total 73 27 100


Caso 2: Una variable cuantitativa y una variable cualitativa (grupo)
Tabla de de distribucin de frecuencias (si n es grande)
Grficos adecuados:
- Diagrama de puntos paralelos (muestras pequeas)
- Polgonos de frecuencias en un mismo grfico (hay que tener los
datos tabulados en intervalos, para comparar los grupos es
conveniente utilizar porcentaje)
- Diagramas de cajas paralelas (datos directos, es un grfico
basado en los cuartles)

Medidas de resumen: Tendencia central, Percentiles, Dispersin

Ejemplo: Los datos que se muestran a continuacin son los grados de dureza
Brinell obtenidos para muestras de dos aleaciones de magnesio:
Y = grado de dureza Brinell
Aleacin 1 66,3 63,5 64,9 61,8 64,3 64,7 65,1 64,5 68,4 63,2
Aleacin 2 71,3 60,4 62,6 63,9 68,8 70,1 64,8 68,9 65,8 66,2



Cecilia Larran R. Estadstica Descriptiva Ingeniera Pgina 61




Percentiles (bisagras de tukey)
ALEACION
25 50 75 RI 1,5RI (P
25
1,5RI, P
75
+ 1,5RI)
1
63,5 64,6 65,1 1,6 2,4
(61,1 ; 67,5)
2
63,9 66,0 68,9


Interpretacin: ___________________


Informe: dureza Brinell
ALEACION n Media Desv. tp. C. V. Mn. Mx.
1 10 64,670 1,787
2 10 66,280 3,484
Total 20 65,475 2,818



Ejemplo: Una industria metalrgica compra grandes cantidades de alambre de
acero en rollos de 150 metros, hasta la fecha esta compra la realiza en
la empresa Alfha, otra empresa llamada Delta quiere tambin vender
sus productos y hace una oferta bastante interesante porque el precio
de cada rollo es muy inferior.
Sin embargo es importante considerar la resistencia a la traccin (Y).
Por ello se toman muestras al azar de rollos de acero provenientes de
ambas empresas.


Cecilia Larran R. Estadstica Descriptiva Ingeniera Pgina 62

Los resultados se presentan en la tabla siguiente:


Resistencia
(en Newton)


y
i

Empresa
Alfha Delta
10,00 10,25 10,125 2 0
10,25 10,50 10,375 12 17
10,50 10,75 10,625 14 25
10,75 11,00 10,875 11 11
11,00 11,25 11,125 5 9
11,25 11,50 11,375 4 9
11,50 11,75 11,625 0 3

- Grfico adecuado para representar la distribucin de la resistencia de los
alambres de acero fabricado por cada una de las empresas.
Polignos de frecuencias.

- Si la variabilidad de la resistencia del alambre de la empresa Delta no es
superior a la de la empresa Alfha y adems la resistencia promedio es superior
en al menos 1,5 Newton sera aconsejable cambiar de proveedor.

Qu decisin se debera tomar en base a la informacin obtenida?
Fundamente con clculo de medidas adecuadas.



Y = resistencia a la traccin del alambre
Empresa n
i i
i
y n


i
2
i
i
y n


Alfha 48 514,25 5514,5
Delta 74 799,00 8636,90625



Cecilia Larran R. Estadstica Descriptiva Ingeniera Pgina 63

EMPRESA
Media
(promedio)
n
Desv.
estandar
C.V.
% de variabilidad
Alfha 10,71354 48 0,32815 0,03063 3,063%
Delta

Respuesta: _______________

- Qu porcentaje de los rollos de alambre de acero de la empresa Delta
supera la resistencia media de los rollos de alambre de acero de la empresa
Alfha

Ejercicio:
Un Gerente de produccin de una gran industria automovilstica norteamericana
cree que los trabajadores de la planta A hacen un promedio salarial por hora
menor con una mayor variabilidad que los trabajadores de la planta B. Muestras
de 12 trabajadores de la planta A y 10 trabajadores de la planta B dieron los
siguientes valores:

Salario (um ) por hora de un trabajador (Y)
Planta A (1) 12.2 18.2 19.4 15.3 18.6 16.4 15.5 18.7 17.1 18.3 14.5 15.8
Planta B (2) 15.1 14.8 16.9 17.2 18.2 18.5 18.7 19.3 19.2 19.8

a. Apoyan los datos al Gerente de produccin? (utilice medidas de resumen)

n Promedio Desv. Estandar C.V.


b. Corrobore la conclusin de (a) con Box-Plots paralelos (diagrama de caja)




c. Si a los trabajadores se les aumenta el sueldo hora de la siguiente forma:


Planta

Aumento
Determine (despus del aumento):
Promedio
aritmtico
Desviacin estndar
(s
n-1
)
C.V

A

5% + 0.8 um


B

1,5 um




Cecilia Larran R. Estadstica Descriptiva Ingeniera Pgina 64

Caso 3 : 2 variables cuantitativas
Grfico adecuado: Diagrama de dispersin
Medida de resumen conjunta: Coeficiente de correlacin lineal de
Pearson (se estudiar en la ltima unidad de este curso)


Descripcin conjunta de dos variables cuantitativas
Es frecuente que se pueda determinar el grado de relacin entre 2 (o ms)
variables cuantitativas, ya que al tener este conocimiento, se puede predecir una
variable a partir de la otra.
Para expresar cuantitativamente el grado en que dos variables estn
relacionadas, es necesario calcular un coeficiente de correlacin.
Coeficiente de correlacin lineal poblacional :
Coeficiente de correlacin lineal muestral: r

Un coeficiente de correlacin para variables cuantitativas: es un nmero
que indica el grado de asociacin y la direccin de esa asociacin. Indica
cmo vara o cambia una caracterstica cuando la otra caracterstica o
variable asociada cambia.
Sin el conocimiento de cmo una cosa vara con otra sera imposible hacer
predicciones. La prediccin slo es posible basndose en el conocimiento de la
relacin que hay entre 2 variables.
Un coeficiente de correlacin lineal (con variables por lo menos ordinales) nos
proporciona 3 datos principales:
- La existencia o no de una relacin entre las variables estudiadas.
- La direccin de la relacin.
- El grado de esta relacin.
Como por ejemplo:
- estatura y peso
- el ingreso familiar y los gastos en educacin
Para el clculo de r (correlacin muestral) es preciso tener 2 conjuntos de
medidas de los mismos individuos (o parejas de individuos que tengan alguna
forma de relacin)
Tabla de datos:

Grfico adecuado: Diagrama de dispersin, muestra si hay relacin lineal entre
las variables
Sujeto 1 2 3 n
Variable X x
1
x
2
x
3
x
n

Variable Y y
1
y
2
y
3
y
n

La tabla contiene n
pares ordenados


Cecilia Larran R. Estadstica Descriptiva Ingeniera Pgina 65

Ejemplos

a) Una correlacin lineal positiva perfecta
X Y
2 4
4 6
5 7
6 8
7 9
8 10
9 11
10 12
12 14
13 15

b) Una correlacin lineal elevada positiva (+0,76) (relacin directa)

X Y
13 11
12 14
10 11
10 7
8 9
6 11
6 3
5 7
3 6
2 1

En general, personas con alto puntaje en x tambin tendrn alto puntaje en y.

c) Una baja correlacin lineal positiva (+0,14)

X Y
13 7
12 11
10 3
8 7
7 2
6 12
6 6
4 2
3 9
1 6






r = 1


Cecilia Larran R. Estadstica Descriptiva Ingeniera Pgina 66

d) Un caso de alta correlacin lineal negativa (-0,70) (relacin inversa)
X Y
12 7
10 3
9 8
8 5
7 7
7 12
6 10
5 9
4 13
2 11

El signo algebraico del coeficiente de correlacin tiene que ver, por lo tanto, con
la direccin de relacin entre dos cosas, ya sea directa o inversa.

Significado de la correlacin
El valor de de la correlacin puede variar desde -1 (lo que indica
correlacin negativa perfecta), pasando por el 0 (que indica independencia
completa o ninguna relacin), hasta +1 (que significa perfecta correlacin
positiva)
La magnitud se relaciona con la intensidad o estrechez de la relacin.

Coeficiente de correlacin lineal de Pearson
y x
xy
s s
s
r =


n
i i
i 1
xy
(x -x)(y -y)

n -1
s
=
=


X e Y variables cuantitativas


COVARIANZA
n n
i i
n n
i=1 i=1
i i i i
i=1 i=1
xy
x y
(x -x)(y -y) x y -
n
=
n -1 n-1
s
| || |
| |
\ .\ .
=





; -1 < r < 1
covarianza de una muestra (representativa de la
poblacin objeto), indica la direccin de la relacin.



Cecilia Larran R. Estadstica Descriptiva Ingeniera Pgina 67

Ejemplo:
sujeto x y (x - x) (y - y) (x - x )
2
(y - y)
2
(x - x )(y - y)
1 13 11 5,5 3 30,25 9 16,5
2 12 14 4,5 6 20,25 36 27
3 10 11 2,5 3 6,25 9 7,5
4 10 7 2,5 -1 6,25 1 -2,5
5 8 9 0,5 1 0,25 1 0,5
6 6 11 -1,5 3 2,25 9 -4,5
7 6 3 -1,5 -5 2,25 25 7,5
8 5 7 -2,5 -1 6,25 1 2,5
9 3 6 -4,5 -2 20,25 4 9
10 2 1 -5,5 -7 30,25 49 38,5
Total 75 80 124,5 144 102
promedio
x =7,5 y = 8,0

Desviacin estndar de X:
2
x
(x - x)
124, 5
= 3, 719
n - 1 9
s = =



Desviacin estndar de Y:
2
y
(y - y)
144
= 4, 000
n - 1 9
s = =



Covarianza de (x,y):
xy
(x -x)(y -y)
102
= = 11,333
n - 1 9
s =



Coeficiente de correlacin lineal de Pearson:
xy
11,333
r = 0,762
(3,719)(4,000)
=
Interpretacin: _________________________________________











Covarianza positiva
Interpretacin: si hubiese
relacin lineal, esta sera
directa



Cecilia Larran R. Estadstica Descriptiva Ingeniera Pgina 68

Ejercicios VI (varios)
Ejercicio VI-1
Para determinada tarea en una fbrica, donde se necesita mucha destreza, se quiere
investigar si la productividad en el trabajo debe ser mayor al aumentar los aos de
experiencia. Se seleccionaron al azar diez empleados de entre lo que tienen ese trabajo.
Los datos de aos de experiencia y medicin de productividad son los siguientes:

Empleado 01 02 03 04 05 06 07 08 09 10
Aos de experiencia 4 6 10 2 12 6 5 10 13 9
Productividad 80 82 88 81 92 85 83 86 91 90

a. Realice el diagrama de dispersin y calcular el coeficiente r de Pearson.
b. Interprete los resultados.

Ejercicio VI-2
El tiempo de respuestas (en nanosegundos) de un circuito lgico en fro (X) y el tiempo de
respuesta tras una hora de uso intensivo (Y), para una muestra de 12 mquinas es el
siguiente:

Mquina 1 2 3 4 5 6 7 8 9 10 11 12
Tiempo de respuesta en fro (X) 6 5 8 14 7 4 5 9 6 5 7 6
Tiempo de respuesta tras una hora
de uso (Y)
4 8 15 8 9 6 9 6 11 7 5 9

a. Se desea pronosticar el tiempo que tardar un determinado circuito lgico tras una hora
de funcionamiento intensivo, utilizando informacin del tiempo de respuesta en fro.
Para un pronstico fiable, las variables deben estar fuertemente relacionadas, utilizando
una mediada estadstica adecuada, qu concluira usted?
b. Se sabe que un dato es atpico, si su valor no se encuentra en el intervalo
(Q
1
1,5RI , Q
3
+ 1,5RI)

Detecte los posibles valores atpico en Y.

(Q
k
cuartil k RI Amplitud (rango) intercuartlica)

Ejercicio VI-3
Se realizan mediciones del contenido de oxigeno en un una mina subterrnea, para
analizar la factibilidad de explotarla sin riesgos para los trabajadores. Se mide entonces el
contenido de oxigeno en miligramos/litro a diferentes profundidades (metros), obtenindose
la siguiente informacin:

Profundidad 15 20 30 40 50 25 35 45 65 60 70
Contenido O 6,5 5,6 5,4 6,0 4,6 5,0 5.0 4,8 1,0 1,4 0,1



Cecilia Larran R. Estadstica Descriptiva Ingeniera Pgina 69

a. Determine e interprete la intensidad de la relacin lineal entre las variables en estudio.
b. Introduciendo ciertos sondajes, mediante tuberas especiales, la cantidad de oxgeno
en cada punto observado aumenta en 10%. El costo de esta operacin es de 40 en
miles de $ por metro de profundidad. Cul es la media, mediana y varianza del
costo de la operacin para lograr este aumento de oxigeno?


Ejercicio VI-5
Se estn estudiando dos tipos de tubos para la utilizacin en cierta aplicacin industrial. Se
seleccionaron 12 ejemplares de cada tipo y se anot su duracin en semanas.

Tubo Semanas de duracin
Tipo 1 26,3 32,7 29,6 25,6 34,6 40,3 39,1 32,3 28,2 36,7 32,6 38,8
Tipo 2 38,9 27,6 23,6 25,0 33,7 31,4 29,5 32,5 30,6 20,0 31,8 29,3

Analice en forma descriptiva ambos tipos de tubos e indique cul debera seleccionarse para la
aplicacin industrial (J ustifique con medidas de tendencia central y de dispersin)
Ejercicio VI-6
Se est investigando la resistencia (en miles ohms) de cierto tipo de resistor. Para ello se probaron
80 resistores con el siguiente resultado:

Resistencia
(miles ohms)

N de resisteros

5,0 5,5
5,5 6,0
6,0 6,5
6,5 7,0
7,0 7,5
7,5 8,0
8,0 8,5
14
36
14
6
4
3
3
80

Con la informacin de la tabla de frecuencias, determine el porcentaje de resistores con
resistencia atpica (outlier).

Ejercicio VI-7 (PEP)

En una empresa constructora se debe decidir por una de dos mezclas, para preparar concreto. Se
tiene una mezcla estndar que es la que se ha utilizado en los ltimos cuatro aos, pero debido a
nuevas exigencias para que las construcciones sean ms resistentes, por ejemplo a los terremotos,
es que los ingenieros a cargo experimentan con distintas mezclas y despus de meses de
experimentacin, al parecer logran una mezcla que cumple con los estndares exigidos. Por otro
lado, la mezcla estndar tiene costos de produccin muy inferiores a la nueva mezcla, razn por la
cual utilizarn la nueva mezcla solo si cumple de mejor manera con las exigencias mnimas
requeridas, las cuales son:
i. La resistencia mnima a la compresin debe ser de 17,2 MN/m
2
. Esta
resistencia mnima a considerar debe ser superada por el 96% o ms de las
P
75
= 6,36 (miles ohms)


Cecilia Larran R. Estadstica Descriptiva Ingeniera Pgina 70

muestras de prueba.
ii. La variabilidad de la resistencia debe ser inferior al 18%.

Se probaron 50 probetas con muestras de cada tipo de mezcla, las resistencias obtenidas se
presentan en la tabla siguiente.


Resistencia
MN/m
2

N de probetas
Mezcla Estndar Mezcla Nueva
14 17
17 20
20 23
23 26
26 29
29 32
1
9
13
18
7
2
2
8
19
14
5
2

a. Utilizando medidas estadsticas adecuadas pruebe si se cumplen las condiciones i) y ii)
adecuadas y en base a los resultados decida cul de las dos mezclas es ms adecuada.
b. Construya un grfico adecuado que permita comparar la resistencia del concreto para estos
dos tipos de mezclas.

Ejercicio VI-8
Se analizan dos catalizadores para determinar la forma en que afecta el rendimiento de un
proceso qumico. El catalizador 1 es el que se viene empleando en la fbrica y se quiere
averiguar si se puede sustituir por el catalizador 2, ms barato, pero que, segn el
fabricante provoca un descenso del rendimiento. Se llevan a cabo 24 reacciones
obteniendo para cada catalizador los rendimientos en porcentaje:


Catalizador

Y = rendimiento (%)
i
i
y


i
2
i
y


1
93,1 91,7 99,9 90,3 96,2 92,7 92,7 89,0
2237,6 208924,80 92,0 94,0 98,2 96,1 97,9 87,0 89,4 92,6
93,8 90,3 92,8 91,1 91,1 89,4 94,2 102,1
2
91,5 89,2 92,8 95,3 95,1 96,4 87,0 91,7
2196,3 201164,17 87,2 90,9 91,3 92,6 91,4 91,5 91,4 95,5
90,6 88,2 87,8 89,9 90,4 90,6 91,0 97,0

a. Se aceptara el cambio de catalizador, si los resultados de la pruebas arrojan una
diferencia promedio de ambos catalizadores inferior a 4 (%) y el catalizador
alternativo debe tener rendimiento ms homogneo del que se utiliza actualmente.
Con los resultados muestrales, es aconsejable realizar el cambio?

b. Sabiendo que el 75% de las reacciones obtenidas con el Catalizador 2 tienen un
rendimiento igual o superior a 90,15. Determine si existe algn resultado (reaccin)
atpica. Utilice regla de Tukey.




Cecilia Larran R. Estadstica Descriptiva Ingeniera Pgina 71


Ejercicio VI-9
En una planta embotelladora de bebidas de fantasa, utilizan envases fabricados
con 2 tipos de plstico, de similares condiciones. ( A y B ).
Con muestras de 25 botellas fabricadas con cada tipo de plstico se midi la
resistencia (en psi). Algunos resultados parciales se encuentran a continuacin:

















X = Resistencia

x


2
x


Plstico A 5087 1038093
Plstico A 4898 963332

a. Se estima que las botellas fabricadas con el plstico B presentan una
resistencia ms homognea, que las fabricadas con el plstico A. Utilizando
una medida estadstica adecuada, qu puede comentar de esta estimacin?


b. Determine para cada tipo de envase entre que valores (psi) se encuentran el
50% de las botellas con mayor resistencia









Resist_A Stem-and-Leaf Plot

Freq Stem & Leaf

1,00 18 . 2
2,00 18 . 59
1,00 19 . 0
4,00 19 . 5679
7,00 20 . 1222234
4,00 20 . 5689
2,00 21 . 01
1,00 21 . 9
2,00 22 . 14
1,00 22 . 5

Stem width: 10
Each leaf: 1 case(s)




Resist_B Stem-and-Leaf Plot

Freq Stem & Leaf

1,00 Extremes (=<171)
2,00 17 . 38
3,00 18 . 349
11,00 19 . 22344556679
5,00 20 . 35668
2,00 21 . 05
1,00 22 . 4

Stem width: 10
Each leaf: 1 case(s)

Atpico =171



Cecilia Larran R. Estadstica Descriptiva Ingeniera Pgina 72

Introduccin al modelo de regresin simple
0 1
y = + x +



El modelo de regresin lineal simple representa dependencia lineal de una
variable respuesta y cuantitativa, respecto a otra variable explicativa x
tambin cuantitativa.

Estructura de los modelos de regresin
Se admite que todos los factores o causas que influyen en una variable
respuesta, dependiente o endgena (y) pueden dividirse en dos grupos: el
primero contiene a la variable (x) llamada variable explicativa, independiente o
exgena y que se supone no aleatoria y conocida al observar (y) ; el segundo
incluye un conjunto muy grande da factores (variables), cada uno de los cuales
influye en la respuesta en pequea magnitud, la variables incluidas en el
segundo grupo se engloban dentro de un nombre comn error aleatorio ()
La forma estructural bsica del modelo es:
0 1
y = + x +

0 1
, son parmetros
Ejemplo
y x
Sueldo de Director de
una industria
Edad
Tamao de la i, Caractersticas
personales, etc.

Estimacin de los parmetros
0
,
1

El resultado de la estimacin ser la recta de regresin
0 1

y = + x
i i
que
estima el valor medio de y, y , para cada valor de x.
X
12,5 10 7,5 5 2,5
Y
12,5
10
7,5
5
2,5
0
Sq r lineal = 0,58
Recta de mejor ajuste a
la nube de puntos

0 1

y = + x



Cecilia Larran R. Estadstica Descriptiva Ingeniera Pgina 73

Mediante un ejemplo se explicar la metodologa para encontrar la recta de
regresin.
La tabla siguiente presenta la estatura en cm. y el peso en kg. de una muestra
aleatoria de 22 estudiantes




























Para estimar los parmetros del modelo
i 0 1 i i
y = + x + se suele utilizar el mtodo de
mnimos cuadrados ordinarios, en que consiste en minimizar la suma de cuadrados de los
errores,
n
2
i
i=1
, es decir, los valores
0 1 ,

se obtienen cuando se minimiza

i
n
2
i 0 1 i
i=1

( (y - ( + x ) ) : mn
n
2
i
i=1
entrega los siguientes resultados:








Sujeto
Peso
Y
Estatura
X
1 82 185
2 75 185
3 70 180
4 68 178
5 44 159
6 66 172
7 72 176
8 85 183
9 70 179
10 75 186
11 58 169
12 69 172
13 68 176
14 75 174
15 70 177
16 68 170
17 57 161
18 63 170
19 80 190
20 70 172
21 54 162
22 54 165

El primer paso de todo anlisis estadstico es dibujar los datos para
tener una idea intuitiva de la relacin:

Diagrama de dispersin Simple (Estatura y Peso)

ESTATURA
200 195 190 185 180 175 170 165 160 155 150
P
E
S
O
90
85
80
75
70
65
60
55
50
45
40

En el grfico se observa una relacin aproximadamente
lineal.





Cecilia Larran R. Estadstica Descriptiva Ingeniera Pgina 74

Sistema de ecuaciones normales
XY
0 1 i i
1 2
i i
x
2
0 i 1 i i i
0 1
i i i

s
n + x = y

=
s


x + x = x y

= y - x


2
XY X
S Covarianza de la muestra; S Varianza de la muestra

Las diferencias (verticales) de los valores observados y
i
con los valores de la recta estimada
i
y
son los errores o residuos estimados,
i i i i

= e = y - y


La ecuacin y = -114,36 + 1,04x indica que para predecir el peso de un estudiante o
estimar el peso medio de estudiantes hay que multiplicar su estatura por 1,04
(estimacin de la pendiente
1
) y restarle 114,36 (estimacin de
0
).

R cuadrado (R
2
) corresponde al coeficiente de determinacin (r de Pearson
al cuadrado en regresin simple) R
2
indica qu porcentaje de la
variabilidad de la variable de respuesta Y es explicada por su relacin
lineal con X (estatura en este ejemplo)

R
2
=0,80 80% El 80% de la variabilidad total del peso est
explicado por su relacin con la estatura.

160 165 170 175 180 185 190
estatura
45
50
55
60
65
70
75
80
85
p
e
s
o


1peso = -114.36 + 1.04 * estatura
R-cuadrado = 0.80
se obtiene la recta de
regresin estimada
i 0 1 i
y = + x


0

= -114,36

1

= 1,04 (pendiente)

y = -114,36 + 1,04x
es la mejor recta que ajusta
a la nube de puntos

1

= 1,04, indica que por


cada cm. adicional de
estatura el peso se
incrementa en 1,04 kg.


Cecilia Larran R. Estadstica Descriptiva Ingeniera Pgina 75

Ejemplo: los alumnos con 185 cm. de estatura, la estimacin del peso medio (o
la prediccin del peso de un estudiante que mide 185 cm.) es:
y = -114,36 + 1,04185 = 78,04 kg. (78,73 si se utilizan todos los decimales)
Predicin: Uno de los mayores usos de la lnea o recta de regresin es la
prediccin del valor de la variable dependiente Y dado un valor de la variable
predictora o independiente X. Esto se puede hacer fcilmente sustituyendo el
valor dado de X en la ecuacin.
- Del ejemplo Peso-Estatura Prediga el peso de de un alumno que mide 165
cm. x
0
= 165
0
y =


Ejercicios VII
Ejercicio VII-1
Las bodegas modernas utilizan vehculos guiados por computadores y automatizados para el
manejo de materiales. En consecuencia, la disposicin fsica de la bodega debe disearse para
evitar el congestionamiento de los vehculos y optimizar el tiempo de respuesta. Se estudi el
diseo ptimo de una bodega automatizada, la disposicin empleada supone que los vehculos no
se bloquean entre s cuando viajan dentro de la bodega, es decir, no hay congestionamiento. La
validez de este supuesto se verific simulando por computador las operaciones de la bodega. En
cada simulacin se varo el nmero de vehculos y se registr el tiempo de congestionamiento
(tiempo total que un vehculo bloquea a otro). Los datos se muestran a la tabla:

N de vehculos 1 2 3 4 5 6 7 8 9 10
Tiempo de
Congestionamiento (hrs)
0 0 0,02 0,01 0,01 0,01 0,03 0,03 0,02 0,04

Los investigadores estn interesados en conocer la relacin entre el tiempo de
congestionamiento (Y) y el nmero de vehculos (X)
a. Cuantifique la dependencia lineal existente entre las dos variables.
b. Realice un pronstico para el tiempo de congestionamiento cuando el nmero de
vehculos es 11.

Ejercicio VII-2
Para determinada tarea en una fbrica, donde se necesita mucha destreza, se quiere investigar si
la productividad en el trabajo debe ser mayor al aumentar los aos de experiencia. Se
seleccionaron al azar diez empleados de entre lo que tienen ese trabajo. Los datos de aos de
experiencia y medicin de productividad son los siguientes:

Empleado 01 02 03 04 05 06 07 08 09 10
Aos de experiencia (x) 4 6 10 2 12 6 5 10 13 9
Productividad (y) 80 82 88 81 92 85 83 86 91 90

a. Determine e interprete la recta de regresin y prediga el puntaje de productividad de un
trabajador con 8 aos de experiencia laboral.
b. Determine el interprete el valor de R
2



Cecilia Larran R. Estadstica Descriptiva Ingeniera Pgina 76


Ejercicio VII-3
En una muestra de 12 operarios, que realizan horas extras, durante un mismo mes,
con el propsito de mejorar su productividad, respecto de la cantidad (X) de horas
extras en el mes y el total de unidades (Y) elaboradas por el operario en dicho mes, se
obtuvo la siguiente informacin:

Operario 1 2 3 4 5 6 7 8 9 10 11 12
N de hrs. extras 6 8 9 8 9 12 10 11 12 13 12 8
Unid. Elaboradas 17 24 25 20 26 27 25 25 27 29 26 18

2.1. Indican los datos que la productividad mensual (unidades elaboradas) est
relacionada fuertemente y en forma directa con la cantidad de horas extras?
Justifique su respuesta con una medida estadstica.
2.2. Ajuste la recta de regresin que permita pronosticar o estimar la cantidad de
unidades elaboradas a partir de la cantidad de horas extras en el mes.
Interprete en el contexto del problema el intercepto (
0

) y la pendiente (
1

)
2.3. Estime la cantidad de unidades mensuales elaboradas por los operarios que
realizan x
0
= 12 horas extras en el mes.
2.4. Compare e interprete los CV de X e Y.

Вам также может понравиться