Академический Документы
Профессиональный Документы
Культура Документы
Indice
1. INTRODUCCION
2. PRIMERAS DEFINICIONES
Y ORGANIZACION
DE DATOS
3. OBTENCION
3.1. Distribuci
on de Frecuencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.1.3. Tama
no o anchura de un intervalo de clase . . . . . . . . . . . . . . . . . . . . . .
3.2. Representaci
on gr
afica de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.2.4. Ojivas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4. MEDIDAS NUMERICAS
DESCRIPTIVAS
4.1.2. Mediana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.1.3. Moda . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
10
11
11
4.2.1. Rango . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
11
4.2.2. Varianza. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
12
4.3. Desviaci
on est
andar. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
13
5. EJERCICIOS PROPUESTOS
14
1.
INTRODUCCION
La recopilaci
on y el an
alisis de datos son fundamentales en la ciencia y en la ingeniera. Al analizar
los datos recopilados en experimentos, los cientficos descubren los principios que gobiernan el mundo
fsico y los ingenieros aprenden c
omo dise
nar nuevos productos y procesos importantes. Una dificultad
muy importante con los datos cientficoses que estos se encuentran sujetos a variaciones aleatorias o incertidumbre. Es decir, cuando se repiten las mediciones cientficas cada vez salen un poco diferentes. Lo
anterior plantea un problema: c
omo se pueden obtener conclusiones de los resultados de un experimento
cuando estos pueden ser diferentes? Para analizar esta pregunta, es esencial contar con cierto conocimiento
estadstico. La estadstica se dedica a la recopilacion, el analisis y la interpretacion de datos con incertidumbre. Los metodos de la Estadstica permiten que los cientficos e ingenieros dise
nen experimentos
v
alidos y obtengan conclusiones confiables a partir de los datos obtenidos.
La idea b
asica que yace en los metodos estadsticos de analisis de datos es inferir respecto a una
poblaci
on por medio del estudio de una muestra relativamente peque
na elegida de esta.
2.
PRIMERAS DEFINICIONES
sea uniforme, por ejemplo, el estado de una lesion: leve, moderada, grave; estas observaciones podemos representar con n
umeros o letras que representan categoras donde el
orden interesa por ejemplo: lesion leve=1, lesion moderada=2, lesion grave=3.
Variable cualitativa nominal: En esta variable los valores no pueden ser sometidos a
un criterio de orden como por ejemplo los colores o el lugar de residencia. El resultado
de la observaci
on son representados por n
umeros o letras que indican categoras donde no
interesa el orden, por ejemplo si la variable es el sexo de una persona los resultados pueden
ser: 0=masculino, 1=fememino.
Datos: Es el valor o respuesta que adquiere la variable en cada unidad de analisis. Los datos
pueden provenir de recuentos tales como el n
umero de personas que trabajan en una empresa o de
mediciones como las horas trabajadas por los empleados de una empresa.
Filas de datos: consiste en datos recogidos que no han sido organizados numericamente.
Informaci
on: Es el resultado de los datos procesados de acuerdo a ciertos objetivos. No hay
informaci
on sin dato.
Poblaci
on: Se define como la totalidad de todas las posibles mediciones y observaciones bajo
consideraci
on de una situaci
on dada de un problema.
Muestra: Es una parte o porci
on representativa de la poblacion que se sometera a observacion a
fin de sacar inferencias sobre la poblacion total.
Inducci
on: Es el paso del razonamiento partiendo de los hechos particulares para llegar a la
conclusi
on general. Es decir ir de la muestra a la poblacion para concluir.
Deducci
on: Es el paso del razonamiento partiendo de lo general a lo particular formular conclusiones partiendo de lo general para llegar a lo particular. Es decir ir de la poblacion a la muestra
para concluir.
Par
ametro: Es toda funci
on definida sobre los valores numericos de una poblacion. Ejs. la media
aritmetica ( ).
Estadstico: Es toda funci
on definida sobre los valores numericos de una muestra. Ejs. la media
aritmetica ( x ).
3.
Y ORGANIZACION
DE DATOS
OBTENCION
Son muchos los metodos que pueden utilizar los investigadores para obtener los datos necesarios. En
primer lugar, pueden buscar datos publicados en fuentes gubernamentales, industriales o particulares. En
segundo lugar podran dise
nar un experimento para obtener esos datos. En tercer lugar, podran llevar
a cabo una encuesta, estos datos pueden estar incompletos, incorrectos, desordenados, pero en todos
los casos constituyen los datos b
asicos para iniciar un estudio. En el Paraguay la Direccion General de
Encuestas Estadsticas y Censos (DGEEC) es uno de los principales recolectores de datos para propositos
tanto p
ublicos como privados.
El estadstico, al disponer de una fila de datos, definitivamente tiene que clasificarlos, ordenarlos y
presentarlos adecuadamente, de tal manera que facilite la comprension, descripcion y analisis del fenomeno
estudiado y obtener conclusiones v
alidas para la toma de decisiones. Esta unidad nos proporcionara
herramientas que resultan de particular utilidad par organizar esos datos en:
a) Tabla de frecuencias, que colocan todos los datos en clases especficas, y
b) Diversas visualizaciones gr
aficas, que permiten suministrar una clara representacion visual de los
datos.
3.1.
Distribuci
on de Frecuencias
Una distribuci
on de frecuencias es una tabla en la cual se agrupan en clases valores posibles de
una variable y donde se registra el n
umero de valores observados correspondiente a cada clase, llamado
frecuencia de clase. Los datos organizados en una distribucion de frecuencias se llaman datos agrupados.
Ejemplos 3.1. Los datos que se presentan a continuaci
on provienen de la distribuci
on de frecuencias de
los salarios de los empleados de una f
abrica X.
Salario Semanal ($)
(lmite de clase)
240-259
260-279
280-299
300-319
320-339
340-359
3.1.1.
N
umero
de trabajadores (f)
7
20
33
25
11
4
El smbolo que define una clase, como el 280 299 en la tabla anterior, se llama un intervalo de
clase. Los n
umeros extremos, 280 y 299, se llaman lmite inferior de clase y lmite superior de
clase, respectivamente.
Un intervalo de clase que, al menos en teora, carece de lmite superior o inferior indicado, se llama
intervalo de clase abierto. Por ejemplo, refiriendonos a edades de personas, la clase 65 a
nos o mas
es un intervalo de clase abierto.
3.1.2.
Fronteras de clase
Tama
no o anchura de un intervalo de clase
El tama
no o anchura de un intervalo de clase es la diferencia entre las fronteras de clase superior e
inferior. si todos los intervalos tienen la misma anchura, esta se denota con c. En tal caso, c es igual a la
diferencia entre dos lmites inferiores(o superiores) de clases sucesivas. En el ejemplo c = 299,5 279,5 =
280 260 = 319 299 = 20
3.1.4.
Marca de clase
La marca de clase es el punto medio del intervalo de clase y se obtiene promediando los lmites inferior
y superior de clase. A efectos de an
alisis subsiguientes, todas las observaciones pertenecientes a mismo
intervalo de clase se supone que coinciden con la marca de clase.
3.1.5.
1. Determinar el mayor y el menor de los datos, hallando as el rango, que es la diferencia entre
ambos.
2. Dividir el rango en un n
umero adecuado de intervalos de clase. Esto es la longitud del intervalo
deber
a ser la misma. (Se suele tomar entre 5 y 20 intervalos de clases, seg
un los datos, no debera ser
menos de 6, ni m
as que 20). Adem
as se debe cuidar de que las fronteras de clase no coincidan con
los datos realmente observados.
3. Determinar el n
umero de observaciones que caen dentro de cada intervalo de clase, esto es, hallar
las frecuencias de clases.
Ejemplos 3.2. En la tabla que sigue se recogen los pesos en libras de 40 estudiantes varones de una
universidad. Construir una distribuci
on de frecuencias.
138
146
168
146
161
164
158
126
173
145
150
140
138
142
135
132
147
176
147
142
144
136
163
135
150
125
148
119
153
156
149
152
154
140
145
157
144
165
135
128
w
=
9
6
Peso (lb)
117-125
126-134
135-143
144-152
153-161
162-170
171-179
Recuento o conteo
II
III
IIIII IIIII
IIIII IIIII III
IIIII I
IIII
II
Frecuencia
2
3
10
13
6
4
2
Ejemplos 3.3. En la tabla que sigue se recogen datos del inventario promedio en 20 das de artculos de
conveniencia. Construir una distribuci
on de frecuencias. Agrupar en 6 intervalos de clases.
2,0
3,4
3,4
3,8
3,8
4,0
4,1
4,1
4,1
4,2
Mayor =5, 5
w= 5,52,0
6
4,3
4,7
4,7
4,8
4,9
4,9
5,5
5,5
5,5
5,5
Menor = 2, 0
= 0, 58 0, 6
3.2.
3.2.1.
N
umero de tienda (f)
1
0
2
8
5
4
Representaci
on gr
afica de datos
Un histograma o histograma de frecuancias
Un histograma es una gr
afica de barras de una distribucion de frecuencias. Se acostumbra colocar
los lmites exactos de clase en el eje horizontal de la grafica y los n
umeros de observaciones en el eje
vertical. Sin embargo, tambien se usan puntos medios de clase en lugar de lmites de clase para identificar
las clases.
3.2.2.
Una distribuci
on de frecuencias relativas es aquella cuyo n
umero de observaciones asociados con
cada clase se ha convertido en una frecuencia relativa dividiendo entre el n
umero total de observaciones de
toda la distribuci
on. De este modo, cada frecuencia relativa es una proporcion, la cual puede convertirse
en un porcentaje multiplic
andola por 100.
La representaci
on gr
afica de distribuciones de frecuencias relativas se puede obtener del histograma
sin m
as que cambiar la escala vertical de frecuencias a frecuencias relativas, manteniendo exactamente el
mismo diagrama. El gr
afico resultante se llama histograma de frecuencias relativas.
3.2.3.
Un polgono de frecuencias
Un polgono de frecuencias, es una grafica de lneas de una distribucion de frecuencias. Los dos
ejes de esta gr
afica son similares a los del histograma, salvo en el eje horizontal suele identificarse el punto
medio de cada clase. El n
umero de observaciones de cada clase se representa con un punto por encima del
punto medio de las clases, puntos que se unen despues con una serie de segmentos lineales para formar
un polgono o figura de muchos lados.
3.2.4.
Ojivas
Una distribuci
on de frecuencias acumuladas identifica el n
umero acumulado de observaciones
incluidas bajo el lmite exacto superior de cada clase de la distribucion. Las frecuencias acumuladas de una
clase pueden determinarse sumando las frecuencias observadas de esa clase a las frecuencias acumuladas
de la clase anterior. La gr
afica de una distribucion de frecuencias acumuladas se llama ojiva.
A ciertos efectos, es deseable considerar una distribucion de frecuencias acumuladas de todos los
valores mayores o iguales que el lmite exacto inferior de cada intervalo de clase. Se le suele llamar
una distribuaci
on acumulada o mas, mientras que la antes considerada es una distribucion acumulada
menor que. Las correspondientes ojivas se conocen con el mismo apodo.
Ejemplos 3.4. Dado la siguiente tabla:
a) Las distribuciones relativas y acumuladas
b) Dibuja un histograma,
c) Dibuja un polgonos de frecuencias, y d) una ojiva.
Intervalo de Clase
15,2 - 15,4
15,5 - 15,7
15,8 - 16,0
16,1 - 16,3
16,4 - 16,6
16,7 - 16,9
Total
X (marca de Clase)
15,3
15,6
15,9
16,2
16,5
16,8
Frecuencia
2
5
11
6
3
3
30
Frecuencia Absoluta
2
5
11
6
3
3
30
Frecuencia Relativa
0,07
0,17
0,37
0,20
0,1
0,1
b) Histograma.
c) Polgonos de frecuencias:
d)
Frecuencia Acumulada
2
7
18
24
27
30
MEDIDAS NUMERICAS
DESCRIPTIVAS
4.
4.1.
Una medida de tendencia central es un valor calculado de un grupo de datos que sirve para describir
a estos de alguna manera. Lo com
un es que nos interese que este valor sea representativo de todos los
valores del grupo, motivo por el cual es de desear cierto tipo de promedio. En sentido estadstico, un
promedio es una medida de la tendencia central de una serie de valores.
4.1.1.
Media aritm
etica o promedio aritm
etico
P
x=
2599
2799
2999
3199
3399
3599
Punto medio
de cada clase X
2499,5
2699,5
2899,5
3099.5
3299,5
3499,5
No de trabajadores (f )
fX
7
20
33
25
11
4
100
17.496,5
53.990,0
95.683,5
77.487,5
36.294,5
13.998,0
294.950
fX
294950
=
= $2949, 5 es el valor promedio de salarios de los 100 empleados.
n
100
4.1.2.
Mediana
Lmites reales
inferiores
2399,5
2599,5
2799,5
2999,5
3199,5
3399,5
Punto medio
de cada clase X
2499,5
2699,5
2899,5
3099.5
3299,5
3499,5
Me = 2799, 5 +
No de
trabajadores (f )
7
20
33
25
11
4
100
100 27
2
200 = $2938, 89
f
9
fa
7
27
60
85
96
100
4.1.3.
Moda
1
w
1 + 2
en donde:
LRI: lmite real inferior de la clase que contiene la moda.
1 : Diferencia entre la frecuencia de la clase modal y la frecuencia de la clase precedente.
1 : Diferencia entre la frecuencia de la clase modal y la frecuencia de la clase siguiente.
w = c: tama
no del intervalo de clase.
Ejemplos 4.6. Utilizando los datos de la tabla anterior, calcular la moda que corresponde al salario
de los empleados.
13
200 = $2923, 31
Mo = 2799, 5 +
13 + 8
es la moda de salarios de los 100 empleados.
ENTRE LA MEDIA, MEDIANA Y MODA
RELACION
Para una distribuci
on sim
etrica, coinciden los valores de la Media, la Mediana, y la Moda.
Para una distribuci
on asim
etrica negativa, la media es el menor valor de los tres, y la mediana
es inferior a la moda, pero mayor que la media. Es decir, la parte principal de la distribucion queda
a la derecha de la media.
MEDIA ARITMETICA
< MEDIANA < MODA ....... SESGO NEGATIVO
Para una distribuci
on asim
etrica positiva, la media es el valor mayor, y la mediana es mayor
que la moda, pero menor que la media, es decir, la parte principal de la distribucion queda a la
izquierda de la media haciendo la curva mas larga a la derecha del maximo.
MODA < MEDIANA < MEDIA ARITMETICA ....... SESGO POSITIVO
La relaci
on emprica se acepta como v
alida siempre que el grado de la curva no sea muy acentuado.
Consideraciones finales:
La media aritm
etica es la m
as utilizada ya que se puede calcular con exactitud y se basa en
el total de observaciones. Se emplea preferentemente en distribuciones simetricas y es el valor que
presenta menores fluctuaciones al hacer variar la composicion de la muestra.
10
1. Cuartiles: Son Estadgrafos de posicion que dividen a la totalidad de las observaciones, debidamente ordenados o tabulados en cuatro partes de igual tama
no. Esto significa que entre dos cuarteles
consecutivos se encuentran no m
as del 25 % del total de las n observaciones. Existen 3 cuartiles:
primer cuartil (Q1 ), segundo cuartil (Q2 ) y tercero cuartil (Q3 ) (siendo Q2 = Me .)
2. Deciles: Son Estadgrafos de posici
on que dividen a la totalidad de las observaciones en 10 partes
iguales, tal que entre dos deciles consecutivos se encuentre no mas del 10 % de las observaciones.
Existen 9 deciles: D1 , D2 , ..., D9 .
3. Percentiles: Son Estadgrafos de posicion que dividen a la totalidad de las observaciones en 100
partes iguales. Los percentiles se aplican cuando existen numerosos valores de la variable con una
alta frecuencia total.
Existen 99 percentiles: P1 , P2 , ..., P99 .
Para datos agrupados se utiliza la formula de la mediana modificando el punto fraccionario de
interes. Para utilizar la f
ormula, primero se determina la clase que contiene el punto de interes, de
acuerdo con la frecuencia acumulada, y despues se lleva a cabo la interpolacion. Las formulas utilizadas
son:
n
f a
Ejemplos 4.7. Para los datos de la tabla anterior, calcular el Percentil 90 de los salarios de los empleados.
P90 = 3199, 5 + 9085
200 = $3290, 41
11
4.2.
Medidas de variabilidad.
Rango
Para datos simples es la diferencia entre el valor mayor y menor del conjunto de datos no agrupados.
La f
ormula utilizada es:
R = My M n
en donde
My = Valor m
aximo del conjunto de datos.
Mn = Valor mnimo del conjunto de datos.
11
Varianza.
V (X) = =
s2 =
(X )2
N
(X X)2
n1
(varianza de la poblacion)
(varianza de la muestra)
en donde
X = valor observado.
= media de la poblaci
on.
X = media de la muestra.
N = tama
no de la poblaci
on.
n = tama
no de la muestra.
Ejemplos 4.9. En la tabla se observa en n
umero de unidades vendidas por cada vendedor. Calcular
la desviaci
on media de las unidades.
Vendedor No de Unidades vendidas (X) X X (X X)2
A
5
-5,5
30,25
B
8
-2,5
6,25
C
8
-2,5
6,25
D
11
0,5
0,25
E
11
0,5
0,25
F
11
0,5
0,25
G
14
3,5
12,25
H
16
5,5
30,25
Total
86
P
(X X)2
86
s2 =
=
= 10, 75
n1
8
2. Para datos agrupados en tabla de frecuencia: Para datos agrupados en una distribucion de
frecuencia, se asume que la marca de clase representa a todas las mediciones incluidas en esa clase.
Las f
ormulas utilizadas en el c
alculo de datos simples quedan modificadas de la siguiente forma:
P
f (X )2
2 =
(varianza de la poblacion)
N
P
f (X X)2
s2 =
(varianza de la muestra)
n1
en donde
X = marca de clase.
X = media de los datos.
f = frecuencia de clase.
n = n
umero de observaciones.
12
4.3.
Desviaci
on est
andar.
1. Para datos en serie simple: Es la raz cuadrada positiva de la varianza, su utilizacion es preferible
a la de la varianza, porque se expresa en las mismas unidades que los datos originales y no en las
unidades cuadradas de la varianza. La formula utilizada es: La formula utilizada es:
rP
(X )2
=
(desviacion estandar de la poblacion)
N
s
P
(X X)2
s=
(desviacion estandar de la muestra)
n1
Ejemplos 4.10. En la tabla del ejemplo 4.9 se observa en n
umero de unidades vendidas por cada
vendedor. Calcular la desviaci
on est
andar de las unidades.
s
r
P
(X X)2
86 p
s=
=
= 10, 75 = 3, 3unidades
n1
8
2. Para datos agrupados en tabla de frecuencia: Las formulas utilizadas en el calculo de datos
simples quedan modificadas de la siguiente forma:
rP
f (X )2
(desviacion estandar de la poblacion)
=
N
s
P
f (X X)2
s=
(desviacion estandar de la muestra)
n1
Ejemplos 4.11. En tabla se presentan la distribuci
on de frecuencias de los salarios de los empleados
de una f
abrica AA. Calcular la varianza y desviaci
on est
andar de los salarios.
Salario Diario ($)
Intervalos de Clase
2400 - 2599
2600 -2799
2800 - 2999
3000 - 3199
3200 - 3399
3400 - 3599
Marca de
Clase (X)
2499,5
2699,5
2899,5
3000,5
3299,5
3499,5
No de
Trabajadores (f )
7
20
33
25
11
4
100
294950
= 2949, 5
100
2 =
X X
(X X)2
f (X X)2
202 500
62500
2500
22500
122500
302500
1417500
1250000
82500
562500
1347500
1210000
5870000
-450
-250
-50
150
350
550
5870000
= 58700
100
13
58700 = 242, 3
5.
EJERCICIOS PROPUESTOS
1. El n
umero de autom
oviles que vendio cada uno de los 10 vendedores de una distribuidora en un
mes especfico, en orden ascendente son: 2, 4, 7, 10, 10, 10, 12, 12, 14, y 15. Calcular: media aritmetica,
mediana y moda
2. Se presentan los siguientes resultados de un examen practicado a 20 estudiantes en un curso de analisis de decisiones, en orden ascendente: 39, 46, 57, 65, 70, 72, 72, 75, 77, 79, 81, 84, 84, 84, 87, 93, 94, 97
y 97. Determinar: media aritmetica, mediana y moda.
3. Se registran las siguientes mediciones para el tiempo de secado (en horas) de cierta marca de pintura
esmaltada.
3, 4
2, 8
4, 4
2, 5
3, 3
4, 0
4, 8
5, 6
5, 2
2, 9
3, 7
3, 0
3, 6
2, 8
4, 8
a) Cu
al es el tama
no de la muestra anterior?
b) Calcule la media de la muestra para estos datos.
c) Calcule la mediana de la muestra.
d) Calcule la moda de la muestra.
e) Calcule la varianza de la muestra.
f) calcule la desviaci
on est
andar de la muestra.
4. Un alumno debe tener un promedio de 4 o mas en las 10 materias que ha tomado en el a
no para
tener una beca. Se ha presentado a 9 examenes y ha sacado las siguientes notas: 3, 5, 3, 3, 5, 4, 5, 5, 4.
Que nota debe tener en la decima materia para tener la beca?
5. Muchas personas experimentan reacciones alergicas sistematicas a las picaduras de insectos. Estas
reacciones difieren de paciente a paciente no solo en gravedad sino tambien en el tiempo de aparici
on
de reacci
on. Los siguientes datos representan el tiempo en minutos de aparicion de la reaccion en
40 pacientes que experimentaron una reaccion sistematicas a la picadura de una abeja.
10, 5
3, 8
13, 6
8, 3
11, 2
10, 5
14, 7
9, 8
9, 9
11, 7
11, 5
9, 1
15, 0
8, 4
11, 5
10, 1
11, 4
12, 5
10, 9
8, 6
12, 7
9, 1
12, 7
11, 2
11, 4
13, 4
8, 8
16, 7
11, 6
12, 3
10, 9
7, 4
6, 2
5, 9
12, 9
8, 1
7, 9
11, 4
10, 4
9, 9
a) Ordenar los datos. Hallar la media, la moda y la mediana considerando los datos no agrupados.
b) Disponer los datos en una serie de frecuencia simple.
c) Obtener la distribuci
on de frecuencias. Hallar la media, la moda y la mediana considerando
los datos agrupados.
6. Dada la siguiente distribuci
on de salarios semanales, en dolares, realizar los siguientes ejercicios:
80
70
61
85
100
98
88
52
90
96
75
85
76
64
92
69
88
81
95
100
81
75
83
63
73
88
58
70
14
82
94
78
97
98
108
105
96
67
83
109
78
89
64
10 052
10 587
10 507
10 028
9 872
9 910
9 722
9 956
9 992
9 908
9 928
10 237
No DE PERSONAS
5
10
15
20
15
10
5
9. De la siguiente tabla
Intevalo de Clase
18 - 19
20 - 21
22 - 23
24 - 25
26 - 27
28 - 29
30 - 31
Total
Determinar:
a) Primer y tercer cuartil.
b) Cuarto y noveno decil.
c) El percentil 68 y percentil 90.
15
Frecuencias
9
32
43
21
11
3
1
120