Вы находитесь на странице: 1из 45

1

CAP1:
ORGANIZACION Y
GESTION DE
DATOS
Prof. Cristian Bayes R.
EST218
2
1. ALGUNAS PRECISIONES CONCEPTUALES
Estadstica:
Entenderemos a la Estadstica como la ciencia que nos
proporciona un conjunto de mtodos, tcnicas o
procedimientos para recopilar, organizar, presentar y
analizar datos con el fin de describirlos o de realizar
generalizaciones vlidas.
3
DEFINICIONES BSICAS
Poblacin o universo
Se llama poblacin o universo a un conjunto finito o infinito de elementos cuyas
caractersticas se desean estudiar. El nmero de elementos de una poblacin
se representa por N.
Son ejemplos de poblaciones:
El ingreso econmico de los ingenieros en Lima.
Los televisores encendidos en el pas entre las ocho y nueve en la noche del
ao nuevo.
Los tiempos empleados por los autobuses de una lnea para efectuar un
recorrido urbano.
Los pesos de las bolsas de cemento especificadas en una fbrica.
El volumen de agua anual del ro Rimac
Muestra y Muestreo
Se llama muestra a un subconjunto de la poblacin. El nmero de elementos de
una muestra se representa por n.
4
Parmetros, Estadsticas y Estimadores
Las poblaciones se pueden describir mediante ciertos valores numricos fijos
llamados parmetros.
El ingreso promedio o media de los ingresos econmicos de los
ingenieros de Lima
La proporcin de televisores entre las ocho y nueve en la noche del
ao nuevo del pas.
El tiempo mnimo y mximo por los autobuses de una lnea para
efectuar un recorrido urbano.
La varianza de los pesos de las bolsas de cemento especificadas en
una fbrica.
El mximo volumen de agua anual del ro Rimac.
5
Se usan smbolos de letras griegas para representar los
parmetros. Por ejemplo para la media se usa (mu), para
la proporcin se usa (rho), para la varianza se emplea o
2
(sigma elevado al cuadrado). Otras veces se emplean
abreviatura en maysculas. Min para el mnimo, Max para el
mximo.
Hay que notar que en todos los casos los parmetros se
refieren a toda la poblacin, es decir al caso terico o
verdadero.
6
Como muchas veces no es posible poder obtener estos valores se
recurre a un variable obtenida en la muestra.
Si la muestra es probabilstica esa variable se llama estadstica
pero para distinguirla y evitar confusiones con la ciencia
Estadstica las llamaremos medidas estadsticas.
Son ejemplos de medidas estadsticas, la media, la proporcin, la
varianza, el mnimo y el mximo, pero obtenidas de una muestra.
Por ello se representan con letras diferentes de los parmetros
correspondientes. Por ejemplo la media muestral se representa por
x , la proporcin muestral por p, la varianza muestral por S
2
, el
mnimo y mximo muestral por min y max.
7
Un estimador es el valor de una estadstica. Es un nmero que se
obtiene con los datos de la muestra. Son ejemplos de estimadores del
rendimiento de los alumnos de una escuela los encontrados en una
aula muestreada: x =11.4, p= 0.40, S
2
=2.1, min=6, max=19.
8


N Poblacin

Parmetros ( , , o
2
)






n Muestra

Estadsticas ( x , p, S
2
)


Estimadores (11.4,0.4,2.1)


Figura 1. Poblacin, Muestra, Parmetros, Estadsticas y Estimadores

9
Estadstica Descriptiva.
Es una parte de la Estadstica que trata de la recopilacin,
organizacin, presentacin de los datos sin hacer inferencias
con ellos. Es decir slo describindolos de la mejor manera, para
comunicarlos adecuadamente a todo tipo de pblico.
Estadstica Inferencial
Es una parte de la Estadstica que se encarga del anlisis de los
datos con el propsito de hacer inferencias acerca de la
poblacin de donde originalmente se tomaron estos datos.
Teniendo como base la teora de la Probabilidad se desarrolla
una teora de inferencia estadstica dentro del marco del mtodo
cientfico para estimar y probar hiptesis sobre los parmetros
estadsticos.
10
Una variable es un smbolo al cual se le asignan nmeros o valores. Es
el resultado de la medicin de una propiedad o caracterstica.
Generalmente se representa por letras como X, Y, Z, etc. Cada valor
que toma la variable es un dato. N datos se representan como x
1
, x
2
,
...., x
n
.
Por ejemplo
N= 3 datos de una variable X que representa el tipo de empresa
pueden ser : x
1
= estatal , x
2
= privada, x
3
= estatal.
N=5 datos de una variable Y que representa los pesos de varillas de
acero de un fabricante: pueden ser y
1
= 800, y
2
=1200, y
3
=1300,
y
4
=1100, y
5
=1000
N=5 datos de una variable Z que representa el nivel de alerta de
erupcin de un volcn pueden ser: z
1
= bajo, z
2
=medio, z
3
= bajo,
z
4
=alto, z
5
=alto
2. CLASIFICACION DE VARIABLES
11
CLASIFICACIN DE VARIABLES POR EL TIPO DE
ANLISIS
Una variable es cuantitativa, cuando es una variable en la que hay unidad
de medida y por tanto los datos se pueden representar por expresiones
numricas, con las que se puede hacer operaciones aritmticas.
Una variable es cualitativa cuando es una variable en la que no hay una
unidad de medida y los datos aunque se pueden representar por
expresiones numricas no es posible realizar operaciones aritmticas con
ellos.
12
CLASIFICACIN POR LA PRESENCIA DE ESPACIOS
ENTRE LOS VALORES
Una variable continua es aquella que no est restringida a tomar solamente
valores aislados. Puede tomar cualquier valor en el intervalo de la recta. Una
variable continua es susceptible (aunque no lo haga de hecho) de tomar una
infinidad de valores en un continuo. En este tipo de variable no hay presencia
de espacios entre los valores que puede tomar la variable.
Una variable discreta es la que puede tomar solamente un nmero finito de
valores. Los valores son nmeros enteros. En este tipo de variable hay
presencia de espacios entre los valores que puede tomar la variable.
13

Ejemplo
La siguiente es la lista de caractersticas tomadas en una
encuesta a jvenes universitarios de una universidad privada:
Determine el tipo de variable que le corresponde a cada
caracterstica.
- Edad (en aos)
- Gnero
- Especialidad que estudia
- Ciclo de estudios que cursa
- Promedio ponderado de notas
- Nmero de crditos matriculados
- Escala de pensiones
- Aptitud Numrica medida en un test de 100 preguntas
14
3. TABLAS DE DISTRIBUCION DE FRECUENCIAS
Una tabla de distribucin de frecuencias es aquella que presenta
los datos de manera que se pueda conocer como se distribuyen
los valores de la variable observados.
15
Ejemplo 1:
En esa investigacin se registr el sexo del alumno estas fueron las
respuestas de los 56 alumnos:
F , M, M, M , F, F, M, M, F, M, F, M, F, M, F, F, F, F, F, M M,
F, M, M, F, F, M, F, F, M, M, M, F, F, M, F, M, M, F, F, M, M,
M, M, F, M, M, M, F, F, M, F, M, F, M, M.
donde M: Masculino y F: Femenino
Ejemplo 2:
Para cada alumno se tiene sus resultados en una prueba de
Matemticas de 0 a 100 puntos. Los valores se listan a continuacin:
73, 81, 44, 69, 30, 38, 75, 66, 76, 84, 72, 82, 58, 89, 73, 59, 87, 63,
43, 59, 64, 74, 63, 63, 48, 52, 77, 68, 47, 53, 63, 72, 52, 55, 75, 43,
67, 61, 87, 39, 62, 75, 69, 53, 79, 95, 49, 38, 68, 84, 82, 95, 59, 75,
36, 65
16
Ejemplo 1
Variables cualitativas
1. Identificar las modalidades de la variable
2. Elaborar la tabla de frecuencia de los datos de acuerdo a las modalidades de la
variable
3. Obtener medidas complementarias para la tabla elaborada
Se tiene que el 53,6 % de los encuestados es de gnero masculino.
Si representramos este resultado como un rea de la circunferencia se tendra un
rea de 193 , es decir, ms de una semicircunferencia.

Modalidades Frecuencia % Grados
Masculino 30 53,6 193
Femenino 26 46,4 167
Total de casos 56 100 360

17
Ejemplo 2:
Variables cuantitativas
1. Ordenar los datos identificando el menor valor y el mayor valor
2. Establecer el nmero de intervalos en los que se piensa representar
los datos
3. Calcular la amplitud o recorrido de los datos
4. Calcular el ancho de los intervalos a formar
5. Elaborar los intervalos que incluyen a todos los datos
6. Elaborar la tabla de frecuencia de los datos segn los intervalos
7. Obtener medidas complementarias para la tabla elaborada
18

Intervalos Ancho xi ni Ni fi Fi % % acum
1 |30 40| 35 5 5 0.09 0.09 9 9
2 |40 50| 45 6 11 0.11 0.20 11 20
3 |50 60| 55 9 20 0.16 0.36 16 36
4 |60 70| 65 14 34 0.25 0.61 25 61
5 |70 80| 75 12 46 0.21 0.82 21 82
6 |80 90| 85 8 54 0.14 0.96 14 96
7 |90 100| 95 2 56 0.04 1.00 4 100
Total de
datos
56 1.00 100


K= 1 + 3.3 Log n
en la que:
K: nmero de intervalos o clases
n: nmero de datos (tamao de la muestra)
Log: logaritmo natural en base 10

A = valor mximo valor mnimo



C = A / k


19
Se tiene que las frecuencias, van cambiando a partir del valor 5 en el
primer intervalo hasta alcanzar los valores de 14 y 12 en los intervalos 4 y
5 para luego decrecer en los intervalos 6 y 7.
Esto sugiere que la mayora de los estudiantes tienen notas intermedias
entre los intervalos 4 y 5 (de 60 a 80 puntos). Que hay pocos estudiantes
con notas bajas y notas altas.
Este resultado tambin se puede seguir si es que se analizan las
frecuencias relativas y los porcentajes. Son los intervalos 4 y 5 los que
presentan las mayores proporciones o porcentajes.
Otras interpretaciones que pueden hacerse son: el 16 % de los escolares
tiene notas por debajo de 60 puntos. El 14 % de los escolares tiene notas
entre 80 y 90 puntos. El 100-82 =18 % tiene notas desde 80 puntos.
20

Tipo de variable Tipo de grfico
Cualitativas Grfico de barras
Grfico de sectores circulares
Cuantitativas Histograma
Polgono de frecuencias
Grfico de Barras
Sexo
Femenino Masculino
F
r
e
c
u
e
n
c
i
a
40
30
20
10
0
Grfico de Sectores Circulares
Femenino
Masculino
4. GRAFICAS
Histograma
Notas
F
r
e
c
u
e
n
c
i
a
30 40 50 60 70 80 90 100
0
2
4
6
8
1
0
1
2
1
4
Notas
F
r
e
c
u
e
n
c
i
a
30 40 50 60 70 80 90 100
0
2
4
6
8
1
0
1
2
1
4
21
4. GRAFICAS
Variables Cualitativas
Grfico de barras:
Es la representacin grfica para un conjunto de datos
cualitativos resumidos en una distribucin de frecuencia.
En el eje horizontal se especifican los indicadores o
nombres de cada clase y en el eje vertical una escala de
frecuencia relativas o absolutas
Grfico de sectores circulares:
Es la representacin grfica de frecuencias relativas o
porcentuales
Para dibujarlo se traza un crculo y se divide en sectores
segn las frecuencias.
22
Ejemplo

Modalidades Frecuencia % Grados
Masculino 30 53,6 193
Femenino 26 46,4 167
Total de casos 56 100 360

Grfico de Barras
Sexo
Femenino Masculino
F
r
e
c
u
e
n
c
i
a
40
30
20
10
0
Grfico de Sectores Circulares
Femenino
Masculino
23
4. GRAFICAS
Variables Cuantitativas
Histograma
En este grfico se coloca la variable de inters en el eje
horizontal y las frecuencias (absolutas, relativas o proporcionales
a ellas) en el eje vertical
A diferencia del grfico de barras no hay separacin entre los
rectngulos formados por los intervalos.
Polgono de Frecuencias
Cuando se traza un lnea recta entre los puntos medios de las
barras a las alturas de las marcas de clase se construye el
denominado polgono de frecuencias
24
Ejemplo
Intervalos Ancho xi ni Ni fi Fi % % acum
1 |30 40| 35 5 5 0.09 0.09 9 9
2 |40 50| 45 6 11 0.11 0.20 11 20
3 |50 60| 55 9 20 0.16 0.36 16 36
4 |60 70| 65 14 34 0.25 0.61 25 61
5 |70 80| 75 12 46 0.21 0.82 21 82
6 |80 90| 85 8 54 0.14 0.96 14 96
7 |90 100| 95 2 56 0.04 1.00 4 100
Total de
datos
56 1.00 100

Histograma
Notas
F
r
e
c
u
e
n
c
i
a
30 40 50 60 70 80 90 100
0
2
4
6
8
1
0
1
2
1
4
Notas
F
r
e
c
u
e
n
c
i
a
30 40 50 60 70 80 90 100
0
2
4
6
8
1
0
1
2
1
4
25
GRAFICOS POR COMPUTADORA
Los grficos presentados se pueden
realizar empleando tambin los
porcentajes de frecuencia ( % ). En
los programas de computadora de
Microsoft Office como Word , Excel
o Power point se pueden hacer este
tipo de grficos y otros ms
complejos que los presentados
aqu. En los programas estadsticos
como SPSS, SPLus y SYSTAT se
disponen tambin muchos ms
grficos.
En Microsoft Office hay un asistente
para grficos que se activa
presionando el icono insertar grfico
26
Las medidas estadsticas son estadsticas basadas en datos
muestrales. Son de tres tipos:
Medidas de Tendencia Central: representan el comportamiento medio
al interior de los datos. Responde a la pregunta: cul es el valor medio
de los datos?.
Medidas de Dispersin: representan el comportamiento de variabilidad
entre los datos. Responde a la pregunta: cul es la variabilidad de los
datos?, cuan dispersos son?
Medidas de Deformacin: representan el comportamiento de la
distribucin de los datos. Responde a las preguntas los datos tienen
sesgo?, los datos se acumulan en el centro?.
4. MEDIDAS ESTADISTICAS
27
4.1 TENDENCIA CENTRAL
Para un grupo de datos correspondiente a una variable la
moda es el valor de la variable que ms se repite.
Para un grupo de n datos ordenados, la mediana es el valor
central, si n es impar y es igual al promedio de los dos datos
centrales, si n es par.
La media aritmtica o simplemente media de un grupo de
datos, simbolizados por x
1
...., x
n
es el nmero
n
x
x
n
i
i
=
=
1
28
La media aritmtica
La media aritmtica se calcula de la siguiente forma:
La media de la muestra de seis observaciones:
7, 3, 9, -2, 4, 6
esta dada por:
n
x
n
x x x
X
n
i
i
n

=
=
+ + +
=
1
2 1
...
=
+ + + + +
=

=
=
6
x x x x x x
6
x
x
6 5 4 3 2 1 i
6
1 i
7 3 9 4
6
4.5
2
29
Considere los siguientes valores de una variable y la frecuencia de
cada valor
Si los valores son x
1
......x
k
y sus frecuencias son respectivamente, n
1
...., n
k
donde n
1
+.........+ n
k
= n, entonces la media ponderada se
calcula con :
donde f
i
= n
i
/n (frecuencia relativa de xi).

x
i
n
i
f
i

6.5 3 0.125
9.5 6 0.25
12.5 2 0.083
15.5 9 0.375
18.5 3 0.125
21.5 1 0.041

=
=
+ + +
+ + +
=
k
i
i i
k
k k
f x
n n n
n x n x n x
x
1
2 1
2 2 1 1
...
...
30
Ventajas y desventajas
Es intuitiva y fcil de calcular.
Utiliza toda la informacin contenida en los datos
Es el valor que se encuentra ms cerca (en
trminos de distancias al cuadrado) a todos los
datos; es decir, es el valor que minimiza:
Es sensible a valores extremos. Es decir, valores
atpicamente muy grandes o pequeos, hacen que
la media se vea arrastrada hacia ellas.
No es aplicable a variables cualitativas.

=

n
i
i
a x
1
2
) (
31
La mediana
Se define como el valor que ocupa la posicin central
cuando los datos estn ordenados de menor a mayor
La mediana es aquel valor debajo del cual se encuentra
(aproximadamente) el cincuenta por ciento de los datos
y encima de l el otro cincuenta por ciento.
Es preferible usar la mediana para representar el centro
de la distribucin cuando se desee reducir el efecto de
valores extremos (muy grandes o muy pequeos).
( ) ( )
( ) ( )
1 2
2 ( 2) 1
2
n
n n
x si n es impar
Me
x x
si n es par
+
+

32
Ejemplo
Nro. de observaciones es impar
26,26,28,29,30,32,60
Los salarios anuales de siete empleados fueron
los siguientes (en miles de dlares) :
28, 60, 26, 32, 30, 26, 29.
Cul es la mediana?
Supongamos que se agrega al grupo el
Salario de un empleado ms ($31,000).
Cul es la mediana?
Nro. de observaciones es par
26,26,28,29, 30,31, 32,60
Hay dos valores en el medio!
Primero, ordenar los salarios.
Luego, localizar el valor en el medio.
26,26,28,29, 30,31,32,60 29.5,
Primero, ordenar los salarios.
Luego, localizar el valor en el medio.
33
La Moda
La moda de un conjunto de observaciones es el valor
que ms se repite, es decir, aquel cuya frecuencia
absoluta es mxima. Puede ser nica, que haya ms de
una, o que no exista.
34
Considere los siguientes valores de una variable y la frecuencia de
cada valor
Si los valores son x
1
......x
k
y sus frecuencias son respectivamente, n
1
...., n
k
donde n
1
+.........+ n
k
= n, entonces la media ponderada se
calcula con :
donde f
i
= n
i
/n (frecuencia relativa de xi).

x
i
n
i
f
i

6.5 3 0.125
9.5 6 0.25
12.5 2 0.083
15.5 9 0.375
18.5 3 0.125
21.5 1 0.041

=
=
+ + +
+ + +
=
k
i
i i
k
k k
f x
n n n
n x n x n x
x
1
2 1
2 2 1 1
...
...
35
4.2 MEDIDAS DE DISPERSION
El rango de los datos es la distancia entre el mayor y menor valor de los
datos.
R=Max Min
La varianza muestral de un grupo de datos, simbolizados por x
1
...., x
n
es
el nmero obtenido de cualquiera de las dos expresiones:
La desviacin estndar S es la raz cuadrada de la varianza S
2
.
El error estandar EE se define por
Para comparar la dispersin entre dos o ms grupos de datos se usa el
coeficiente de variabilidad
% 100 =
x
S
CV
n S EE / =
36
En las distribuciones cuyas grficas son unimodales, la asimetra
se mide con el coeficiente de Simetra de Pearson o sesgo de
Pearson es:
En distribuciones que no son muy asimtricas se cumple que Moda ~
Media 3 (Media Mediana), por tanto se puede aproximar, un
segundo coeficiente :
A
2
se usa cuando existen mltiples modas.
S
Moda Media
A

=
1
4.3 MEDIDAS DE DEFORMACION
( )
S
Mediana Media
A

=
3
2
37
A<0 A=0 A>0
Asimetra Negativa a la
Izquierda

Simtrica

Asimetra Positiva a la
Derecha.



38
El coeficiente de Curtosis es una medida del apuntalamiento
del polgono de frecuencias correspondiente a un grupo de
datos. Se define por igual para datos simples y que provienen
de una tabla de frecuencias como:
donde P
a
es el percentil a de los datos. Es decir el valor que
ocupa el puesto a %.
En este caso estamos interesados en los percentiles con
a=10, 25, 75 y 90.
Para datos simples se tiene que identificar el dato que ocupa el
puesto an/100.
( )
( )
10 90
25 75
5 . 0
P P
P P
k


=
39
Para mirar la curtosis de los datos se usa el polgono de frecuencias.
K0 (K=0) K0.25 K0.5
Platicrtica Mesocrtica Leptocrtica
Si k se acerca a 0.5, se dice que la distribucin es leptocrtica o picuda o
puntiaguda.
Si k se acerca a 0.25, se dice que la distribucin es mesocrtica o
moderada
Si k se acerca a 0, se dice que la distribucin es platicrtica o achatada o
plana.
40
Ejemplo 2
Medidas estadsticas Datos
Media 61.8
Mediana 63
Tendencia
central
Moda 63 y 75
Amplitud 54
Varianza 190
Desviacin
Estndar
13.8


Dispersin
Coeficiente de
variabilidad
22.3
Asimetra -0.25
Deformacin Curtosis 0.27

41
MEDIDAS ESTADISTICAS CON EXCEL
Si se tienen datos originales y se dispone de una calculadora o
computadora es mejor trabajar con los datos originales, para tener
resultados exactos. En el programa Excel se puede calcular todas las
medidas estadsticas que hemos presentados. Sin embargo el clculo
de la Asimetra y Curtosis sigue otras frmulas ms precisas.
Coeficiente de Asimetra =
Con lo datos se obtiene Asimetra = -0,21
Curtosis =
Con los datos se obtiene una curtosis de 0.56.
3
1
3
) (
) 2 )( 1 ( S
x x
n n
n
n
i
i

=


) 3 )( 2 (
) 1 ( 3
) (
) 3 )( 2 )( 1 (
) 1 (
2
4
1
4


+

=
n n
n
S
x x
n n n
n n
n
i
i
42
El dato de curtosis con Excel difiere del obtenido en los clculos de
la tabla de frecuencia porque ha sido diseado para que la curtosis
representa la elevacin o achatamiento de una distribucin,
comparada con la distribucin normal (que veremos mas adelante) y
tiene curtosis 0.
En la salida de excel:
Es una curtosis positiva indica una distribucin relativamente
elevada o leptocrtica,
Una curtosis negativa indica una distribucin relativamente plana
o platicrtica
Una curtosis cero indica que la distribucin es mesocrtica.
43
Ejemplos
En el anlisis de la rentabilidad de la inversin en dlares se
tom una muestra aleatoria de 50 das. Los valores
encontrados se muestran a continuacin. Elabore una tabla de
frecuencias y obtenga medidas estadsticas.
58, 31, 45, 87, 43, 81, 76, 53, 42, 26,
43, 24, 33, 49, 66, 38, 39, 57, 78, 46,
79, 53, 58, 68, 65, 54, 52, 20, 85, 61,
43, 39, 47, 29, 64, 47, 49, 61, 86, 71,
37, 48, 20, 56, 66, 55, 76, 47, 50, 35.
44
Considere las siguientes variables obtenidas en 10 ensayos de un
robot mecnico
x= tiempo, en segundos, que toma el brazo robot para recoger un
papel
12.1 11.6 12.5 8.2 11.9 10.0 7.54 7.4 9.1 10.6
y = tiempo, en segundo que toma para recoger una tiza
17.5 16.0 19.0 15.9 15.8 13.6 12.9 14.2 15.4 14.2
Compare la variabilidad de los tiempos usados por el robot en las
dos tareas y comente.
45
En la siguiente tabla son mostradas las medidas estadsticas
bsicas sobre el nmero de minutos de fabricacin de una
pieza metlica obtenida bajo 4 sistemas alternativos
diferentes.
Sistema
A
Sistema
B
Sistema
C
Sistema
D
Media 12 10 11 9
Moda 10 12 10 9
Mediana 11 13 12 11
Desv. Est. 4 5 6 6
Varianza 16 25 36 36
Rango 8 9 6 5
Amplitud 9 10 7 6
Curtosis 0.28 0.50 0.45 0.14
Asimetra 0.5 -0.4 0.17 0
Coeficiente de variabilidad 33.3 50 66.7

Complete la informacin faltante y compare los sistemas de
fabricacin. Cul de ellos sera ms recomendable?

Вам также может понравиться