Академический Документы
Профессиональный Документы
Культура Документы
Estadstica y Probabilidades
UNIDAD I
ESTADSTICA
1. INTRODUCCIN
El uso de los mtodos estadsticos para analizar datos se ha convertido
en una prctica comn en todas las disciplinas cientficas. Este
material de ayuda pretende introducir mtodos que utilizan los
estudiantes en sus carreras de formacin tecnolgica.
La exposicin matemtica es relativamente modesta. El uso sustancial
del clculo se hace slo en el captulo de probabilidades. No se utiliza
lgebra matricial en absoluto. Por lo tanto, casi toda la exposicin
deber ser accesible para aquellos estudiantes cuyo conocimiento en
matemtica es bsico.
La unidad 1 se inicia con algunos conceptos y terminologa bsicos
(poblacin, muestra, estadstica descriptiva e inferencial, variables y
tipos) y contina con la elaboracin de tablas de frecuencia para
variables cualitativas y cuantitativas y grficos importantes. La unidad
2 corresponde a las medidas resumen de posicin y de dispersin. La
unidad 3 se estudia el anlisis de dos variables: cualitativas vs
cualitativas, cualitativas vs cuantitativas y cuantitativas vs
cuantitativas, adems de grficos importantes. En la unidad 4 se
ofrece el desarrollo un tanto tradicional de la probabilidad, la
probabilidad condicional, la probabilidad total y el teorema de Bayes.
Estadstica y Probabilidades
TECSUP - PFR
1.2 ESTADSTICA
Disciplina que nos proporciona un conjunto de mtodos y
procedimientos que nos permitan recopilar, clasificar, presentar y
describir datos en forma adecuada para tomar decisiones frente a
la incertidumbre o predecir o afirmar algo acerca de la poblacin a
partir de los datos extrados de la misma.
TECSUP - PFR
Estadstica y Probabilidades
Estadstica y Probabilidades
TECSUP - PFR
Figura 1
Ciclo metodolgico de un trabajo estadstico
1.4 VARIABLES
Se dice que algo vara si puede tomar por lo menos dos valores,
grados o formas o, incluso, cuando una caracterstica puede estar
presente o ausente en una situacin especfica.
Dicho esto, podramos estar de acuerdo en que nociones como
sexo, nmero de hijos por familia, color de automvil, nmero de
huelgas anuales, nivel de estudios, etc., son variables, ya que son
caractersticas que admiten por lo menos dos valores, grados o
formas dentro de un universo determinado.
No obstante, al empezar a familiarizarse con este tema, se suele
confundir la caracterstica que admite variaciones con el universo
o con los elementos del mismo. Comprese la lista del prrafo
anterior con esta otra: persona, vivienda, lmpara, automvil.
Estos trminos se refieren a objetos y no a caractersticas de
objetos; por lo tanto, no son variables. Variables seran las
caractersticas que quisiramos indagar de esos objetos. Por
ejemplo, de un universo formado por personas podramos conocer
su edad, lugar de nacimiento, nivel de escolaridad, clase social a
que pertenecen, etc. Estas peculiaridades son variables. Tambin
4
TECSUP - PFR
Estadstica y Probabilidades
Estadstica y Probabilidades
TECSUP - PFR
Tipos de variables
Segn su naturaleza las variables pueden clasificarse en:
a) Variables cuantitativas, son aquellas que consisten de
nmeros que representan conteos o mediciones. Las variables
cuantitativas pueden ser: Discreta, corresponde al conteo o
numeracin de sucesos. Ejemplos: nmero de computadores
en un aula, nmero de artculos defectuosos en un embarque,
nmero de hijos por familia, etc.
Continua, corresponde a mediciones y por tanto sus
valores estn comprendidos en un intervalo ya que entre dos
valores existen infinitos valores intermedios.
Ejemplos: contenido neto en gramos en una lata de caf,
dimetro de un tornillo, ingreso familiar, etc.
b) Variables cualitativas se dividen en diferentes categoras
que se distinguen por alguna caracterstica no numrica.
Ejemplos: genero, nivel socio econmico, grado de
instruccin, etc.
Observacin: Los datos pueden estar codificados
numricamente, sin que ello signifique que sea una variable
cuantitativa.
Ejemplo. Clasifica las siguientes variables:
TECSUP - PFR
Estadstica y Probabilidades
Independiente (X):
Una variable independiente es aquella cuyo valor no depende
del de otra variable. La variable independiente se representa
en el eje de abscisas. Son las que el investigador escoge para
establecer agrupaciones en el
estudio, clasificando
intrnsecamente a los casos del mismo.
Es aquella caracterstica o propiedad que se supone ser la
causa del fenmeno estudiado. En investigacin experimental
se llama as a la variable que el investigador manipula.
Dependiente (Y):
Una variable dependiente es aquella cuyos valores dependen
de los que tomen otra variable. La variable dependiente en
una funcin se suele representar por y. La variable
dependiente se representa en el eje ordenadas. Son las
variables de respuesta que se observan en el estudio y que
podran estar influidas por los valores de las variables
independientes.
Hayman (1974: 69) la define como propiedad o caracterstica
que se trata de cambiar mediante la manipulacin de la
variable independiente.
La variable dependiente es el factor que es observado y medido
para determinar el efecto de la variable independiente.
Considere la siguiente cuestin: Es el aumento del ingreso
per cpita de un pas que causa mejoras en el nivel de
educacin o la mejora en el nivel de educacin que causa
mejoras en el ingreso per cpita? O tal vez un tercer factor
es la causa de ambos? Cultura? Este complejo y viejo debate
no se puede resolver slo sobre la base del anlisis
estadstico, aunque la estadstica es un importante
instrumento en nuestros continuos esfuerzos por dilucidar
estas cuestiones. El debate mencionado ha persistido por
dcadas, adems, porque muchas de las teoras que han sido
propuestas para explicar la relacin entre educacin y
desarrollo econmico no pueden ser refutadas slo sobre la
base del anlisis emprico.
ESCALAS DE MEDICIN
La medicin de una variable consiste en asignar un valor a la
caracterstica o propiedad observada. Por ejemplo, si la caracterstica
observada es el gnero de las personas, al clasificar a una persona
como de sexo femenino le estamos asignando un valor, estamos
haciendo una medicin de la caracterstica.
Estadstica y Probabilidades
TECSUP - PFR
TECSUP - PFR
Estadstica y Probabilidades
2. ESTADSTICA DESCRIPTIVA
La estadstica descriptiva se ocupa de la recopilacin, clasificacin,
presentacin y descripcin de los datos.
2.1 RECOPILACIN
Los datos pueden recopilarse de dos maneras fundamentales:
a) Si se consideran todos los elementos de la poblacin y se
registran sus caractersticas se denomina censo.
b) Si se seleccionan algunos elementos de la poblacin, pero no
todos, se denomina muestra y la informacin obtenida por
este procedimiento se llama por muestreo; si la recopilacin
de los elementos muestrales se efecta al azar se dice que el
muestreo es aleatorio y la muestra se denomina muestra
aleatoria.
Un ejemplo de una recopilacin completa o censo es el Censo
Poblacional del Per realizado en el ao 1993.
2.2 CLASIFICACIN
Los datos obtenidos por observacin o medicin suelen ser
registrados en el orden en que se recopilan. Para facilitar su
interpretacin y el anlisis correspondiente deben ser
clasificados y esto equivale a que los datos deben ser
organizados de alguna manera sistemtica o particionado en
clases bien definidas y una manera sencilla de hacerlo es
ordenar los datos segn su magnitud o agruparlos de acuerdo a
sus caractersticas.
Estadstica y Probabilidades
TECSUP - PFR
Ttulo de la tabla
El ttulo de la tabla debe ser breve, claro y explicativo. Debe ser puesto
arriba de la tabla, en el margen superior izquierdo, debajo de la
palabra Tabla (con la inicial en mayscula) y acompaado del nmero
con que la designa (las tablas deben ser enumeradas con nmeros
arbigos secuencialmente dentro del texto y en su totalidad). Ej.: Tabla
1, Tabla 2, Tabla 3, etc.
10
TECSUP - PFR
Estadstica y Probabilidades
Notas de la tabla
Las tablas presentan tres tipos de notas: notas generales, notas
especficas y notas de probabilidad. Las notas son tiles para eliminar
la repeticin en el cuerpo de una tabla (APA, 2001, p. 147). Ellas son
presentadas en el margen izquierdo (sin sangra) debajo de la tabla
(entre la tabla y la nota hay que inserir dos espacios). Y deben ser
ordenadas en esta secuencia: nota general, nota especfica y nota de
probabilidad, y cada tipo de nota debe ser puesta en una lnea nueva.
Notas generales: Una nota general cualifica, explica u ofrece
informaciones relacionadas a la tabla como un todo y finaliza con una
explicacin de abreviaturas, smbolos y afines (APA, 2001, p. 145).
Nota especfica se refiere a una columna, lnea o tem especfico y debe
ser indicada por letra minscula sobrescrita (a, b, c).
Nota de probabilidad indica los resultados de pruebas significativos y se
indican con asterisco sobrescrito (*).
Tabla N 1
11
Estadstica y Probabilidades
TECSUP - PFR
Tabla N 2
Opinin
Deficiente
Frecuencia
20
Bueno
Excelente
Otros
Total
35
65
40
160
12
TECSUP - PFR
Estadstica y Probabilidades
Tanto para las figuras como para las tablas el interlineados que se
utiliza es sencillo (1,0) o de uno punto cinco (1,5). Esto en el contenido
de las tablas y figuras como en las notas de las tablas, ttulo de tablas
o figuras y leyendas. Segn sea el caso.
Ttulo de la figura
El ttulo explica la figura de forma concisa, pero de forma discursiva.
Debe ser puesto debajo de la figura, con nmeros arbigos
secuencialmente dentro del texto como un todo, precedido por la
palabra Figura (con la inicial en mayscula). Ej.: Figura 1, Figura 2,
Figura 3, etc.
Cualquier otra informacin necesaria para elucidar la figura (como la
unidad de medida, smbolos, escalas y abreviaturas) que no estn
incluidas en la leyenda, tendrn que ser colocadas luego del ttulo.
Cuerpo de la fuente de la figura
Times New Roman, tamao 10.
Leyenda
Se trata de la explicacin de los smbolos empleados en la figura y
debe ser puesto dentro de los lmites de la figura.
13
Estadstica y Probabilidades
TECSUP - PFR
14
TECSUP - PFR
Estadstica y Probabilidades
2
3
0
4
3
5
9
8
5
12
0
11
1
10
1
0
0
4
3
1
8
3
13
3
1
0
1
8
2
10
3
0
0
3
4
6
A 0; 13
Ii
Li , Li1
, i=1, 2, ...,k
15
Estadstica y Probabilidades
TECSUP - PFR
k 1 3,3logn
Donde n es el nmero total de datos disponibles.
La frmula es un poco conservadora y nos da un nmero de
intervalos un poco menor del que se utiliza en la prctica.
Cuando el nmero de datos es menor que 100, el nmero de
intervalos se debe tomar menor que 10. Para un nmero de
datos bastante grande, el nmero de intervalos es mayor que
10, la prctica aconseja los siguientes lmites:
5 k 15 .
En el ejemplo:
k = 1 + 3,3 log(40) = 6,286
Luego k podr tomar valores enteros: 5, 6 o 7
Tomemos: k = 7 .
Wi l(Ii )
Li1 Li
l(A)
W
En el ejemplo:
W
1,857
16
tomamos W = 2
TECSUP - PFR
Estadstica y Probabilidades
Cabezas
ganado
de
Tabulacin
Intervalos de clase
o clases: Ii
N de familias por
clases
[0; 2>
Frecuencias
Absolutas:
ni
14
[2; 4>
[4; 6>
[6; 8>
[8; 10>
[10; 12>
[12; 14>
TOTAL
40
En el ejemplo: n = 40
,k=7
Se verifica que:
1 ni 14
k
ni n1 n2 n3 n4 n5 n6 n7 14
9 7 1 4 3 2 40 n i 1
n3= 3, se lee: la frecuencia absoluta de la tercera clase es
Los intervalos de clase son:
I1 0;2 ,I2 2;4 ,I3
10;12 ,
I7
I5
8;10 ,I6
12;14
17
Estadstica y Probabilidades
TECSUP - PFR
Tabla N 5
Clases
[0; 2>
ni
xi
hi
Hi
Ni
14
0,350
0,35
14
100hi%
35
Frecuencias
relativas
acumuladas
porcentuale
s
100Hi%
35
[2; 4>
0,225
0,575
23
22,5
57,5
[4; 6>
0,175
0,750
30
17,5
75
[6; 8>
0,025
0,775
31
2,5
77,5
[8; 10>
0,100
0,875
35
10
87,5
[10; 12>
11
0,075
0,950
38
7,5
95
[12; 14>
13
0,050
40
100
Cabezas
de
ganado
N de
familia
s
TOTALES
Marcas
de
clase
40
Frecuencia
s relativas
Frecuencia
s relativas
acumulada
s
Frecuencia
s absolutas
acumulada
s
Frecuencias
relativas
porcentuale
s
100
k
i
x1 L1 2L2 0 2 2 1
18
x2 L
L3
......
; i = 1, 2, ....., k
Frecuencias Relativas ( hi ): se define: hi n
ni
14
0,350 h1 n 40
0,225 ; ..... h2 n 40
Se verifica que:
0 hi 1
k
hi h1 h2 h3 h4 h5 h6 h7 0,350 0,225 0,175 0,025 0,100 0,075 0,050 1 i
1
Se define:
Ni = n1 + n2 + .... + ni
En el ejemplo:
N1 n1 14
N2
n1 n2
14 9 23 N3 30,.... N7
40
Se verifica:
1
Ni
40
i = 1, 2, ....., k
Nk N7 40
4
31, se lee: la frecuencia absoluta acumulada hasta la cuarta clase
es 31
Se define:
Ni ;
Hi h1
h2
...
hi
i 1, 2, ... , k
Hi
n
H1 h10,350
H2 h1
h2 0,575 H3
0,750,..... H7 1
Se verifica:
1
Hi 1
Hk H7 1
Grficas
Las distribuciones de frecuencias pueden ser representadas
grficamente mediante:
a) Histogramas
Son grficas de barras o rectngulos cuyas bases representan
los intervalos de clase y las alturas las frecuencias absolutas o
relativas.
vs . n i
I i vs . h i
(Fig. 3)
b) Polgonos de frecuencias
Son polgonos construidos uniendo los puntos xi , ni xi , hi
mediante segmentos de recta, o uniendo los puntos medios
de los techos de los rectngulos del histograma. (Fig. N 3)
ni
ni
Histograma
15
IiIi
15
Fig ura 3
10
10
Polgono de Frecuencias
101214
Figura 4
101214
Ii
vs .
Ni
Ii
vs .
Hi
(Fig. 5)
d) Ojivas
Son poligonales asociadas a distribuciones de frecuencias absolutas
o relativas acumuladas construidas como aparece en la Figura 5.
Ojiva
Ni
Funcin Escalonada
Ni
40
40
30
30
20
20
10
10
10
12
14
Ii
Figura 5
10
12
14
Figura 6
7. PROBLEMAS PROPUESTOS
1. En un artculo se report las siguientes observaciones, listadas en
orden creciente sobre la duracin de brocas (nmero de agujeros
que una broca fresa antes de que se rompa) cuando se fresaron
agujeros en una cierta aleacin de latn.
Ii
11 14 20
23 31 36 39 44
47
5 59 61 65 67 68 71 74 76
78
7
81 84 85 89 91 93 96 99 101 10 105
105 112 118 123 136 139 141 148 15
161 168 184 206 248 263 289 322 388 51
a. Por qu una distribucin de frecuencia no puede estar basada
en los intervalos de clase 0-50, 50-100, 100-150 y as
sucesivamente?
b. Construya una distribucin de frecuencia e histograma de los
datos con los lmites de clase 0, 50, 100, . . . y luego comente
sobre las caractersticas interesantes.
c. Construya una distribucin de frecuencia e histograma de los
logaritmos naturales de las observaciones de duracin y
comente sobre caractersticas interesantes.
d. Qu proporcin de las observaciones de duracin en esta
muestra son menores que 100? Qu proporcin de las
observaciones son de por lo menos 200?
2. Un diagrama de Pareto es una variacin de un histograma de datos
categricos producidos por un estudio de control de calidad. Cada
categora representa un tipo diferente de no conformidad del
producto o problema de produccin. Las categoras se ordenaron
de modo que la categora con la frecuencia ms grande aparezca a
la extrema izquierda, luego la categora con la segunda frecuencia
ms grande, y as sucesivamente. Suponga que se obtiene la
siguiente informacin sobre no conformidades en paquetes de
circuito: componentes averiados, 126; componentes incorrectos,
210; soldadura insuficiente, 67; soldadura excesiva, 54;
componente faltan- te, 131. Construya un diagrama de Pareto.
3. Los accidentes en una planta de papas fritas se clasifican de
acuerdo con la parte del cuerpo lesionada.
Dedos: 17
Brazos: 2
Ojos: 5
Piernas: 1
660
872
923
1074
923
Frecuencias
32
47
75
89
126
38
10
417
862
873
700
790
909
851
926
885
753
784
912
864
857
910
882
922
800
844
847
859
791
931
907
784
903
825
722
917
936
925
935
774
786
706
704
895
903
820
758
792
758
925
930
887
888
890
763
892
914
889
925
805
893
794
791
895
796
915
931
782
768
759
890
701
713
869
916
888
772
724
892
853
865
935
868
895
789
909
887
842
912
943
931
880
892
850
712
710
933
905
920
764
798
905
792
11,1%
10,6%
16,5%
16,7%
38,6%
de
de
de
de
de
agricultores,
patronos,
ejecutivos,
empleados,
obreros,
Toallas desechables: 85
Otros: 12 productos
11.Los siguientes datos son las velocidades (en km/h) de 80 carros que
pasaron por un punto de control de velocidad:
60
40
102
120
60
30
54
60
31
45
70
31
60
45
20
34
29
35
20
38
35
27
45
40
55
45
60 49 49
85
83
30
40
46
105 29
38
80
35
28
60
82
72
63
36 70 60
65
34
73
68
81
65
80 25 70
108
26
24
27
40
75
43
85
39
83
65
72
46
62
43
63
100
55
50
63
64
65
61
69
a) Muestre el histograma
correspondiente.
el
polgono
de
frecuencias
360
120
1000
2200
3400
4000
SUELDO
Haberes
mensuales
Menores a 500
500 , 700
700 , 900
900 ,1100
Nmero de
obreros
4
60
40
48
1100 ,1300
24
1300 ,1500
14
1500 ,1700
ms de 1700
TOTAL
200
ANOTACIONES: