Вы находитесь на странице: 1из 9

CAP1: ORGANIZACION Y GESTION DE DATOS

Prof. Cristian Bayes R. EST218


1

1. ALGUNAS PRECISIONES CONCEPTUALES


La Estadstica:

Entenderemos la Estadstica como la ciencia que nos proporciona un conjunto de mtodos, tcnicas o procedimientos para recopilar, organizar, presentar y analizar datos con el fin de describirlos o de realizar generalizaciones vlidas.

DEFINICIONES BSICAS Poblacin o universo Se llama poblacin o universo a un conjunto finito o infinito de elementos cuyas caractersticas se desean estudiar. El nmero de elementos de una poblacin se representa por N. Son ejemplos de poblaciones: El ingreso econmico de los ingenieros en Lima. Los televisores encendidos en el pas entre las ocho y nueve en la noche del ao nuevo. Los tiempos empleados por los autobuses de una lnea para efectuar un recorrido urbano. Los pesos de las bolsas de cemento especificadas en una fbrica. El volumen de agua anual del ro Rimac Muestra y Muestreo Se llama muestra a un subconjunto de la poblacin. El nmero de elementos de una muestra se representa por n.
3

Parmetros, Estadsticas y Estimadores


Las poblaciones se pueden describir mediante ciertos valores numricos fijos llamados parmetros. El ingreso promedio o media de los ingresos econmicos de los ingenieros de Lima La proporcin de televisores entre las ocho y nueve en la noche del ao nuevo del pas. El tiempo mnimo y mximo por los autobuses de una lnea para efectuar un recorrido urbano. La varianza de los pesos de las bolsas de cemento especificadas en una fbrica. El mximo volumen de agua anual del ro Rimac.

Se usan smbolos de letras griegas para representar los parmetros. Por ejemplo para la media se usa (mu), para la proporcin se usa (rho), para la varianza se emplea 2 (sigma elevado al cuadrado). Otras veces se emplean abreviatura en maysculas. Min para el mnimo, Max para el mximo. Hay que notar que en todos los casos los parmetros se refieren a toda la poblacin, es decir al caso terico o verdadero.

Como muchas veces no es posible poder obtener estos valores se recurre a un variable obtenida en la muestra. Si la muestra es probabilstica esa variable se llama estadstica pero para distinguirla y evitar confusiones con la ciencia Estadstica las llamaremos medidas estadsticas. Son ejemplos de medidas estadsticas, la media, la proporcin, la varianza, el mnimo y el mximo, pero obtenidas de una muestra. Por ello se representan con letras diferentes de los parmetros correspondientes. Por ejemplo la media muestral se representa por x , la proporcin muestral por p, la varianza muestral por S2, el mnimo y mximo muestral por min y max.

Poblacin Parmetros ( , , 2 )

Un estimador es el valor de una estadstica. Es un nmero que se obtiene con los datos de la muestra. Son ejemplos de estimadores del rendimiento de los alumnos de una escuela los encontrados en una aula muestreada: x =11.4, p= 0.40, S2 =2.1, min=6, max=19.

Muestra

Estadsticas ( x , p, S2) Estimadores (11.4,0.4,2.1) Figura 1. Poblacin, Muestra, Parmetros, Estadsticas y Estimadores
7 8

Estadstica Descriptiva. Es una parte de la Estadstica que trata de la recopilacin, organizacin, presentacin de los datos sin hacer inferencias con ellos. Es decir slo decribindolos de la mejor manera, para comunicarlos adecuadamente a todo tipo de pblico. Estadstica Inferencial Es una parte de la Estadstica que se encarga del anlisis de los datos con el propsito de hacer inferencias acerca de la poblacin de donde originalmente se tomaron estos datos. Teniendo como base la teora de la Probabilidad se desarrolla una teora de inferencia estadstica dentro del marco del mtodo cientfico para estimar y probar hiptesis sobre los parmetros estadsticos.
9

2. CLASIFICACION DE VARIABLES
Una variable es un smbolo al cual se le asignan nmeros o valores. Es el resultado de la medicin de una propiedad o caracterstica. Generalmente se representa por letras como X, Y, Z, etc. Cada valor que toma la variable es un dato. N datos se representan como x1, x2, ...., xn . Por ejemplo N= 3 datos de una variable X que representa el tipo de empresa pueden ser : x1 = estatal , x2 = privada, x3= estatal. N=5 datos de una variable Y que representa los pesos de varillas de acero de un fabricante: pueden ser y1 = 800, y2=1200, y3 =1300, y4 =1100, y5 =1000 N=5 datos de una variable Z que representa el nivel de alerta de erupcin de un volcn pueden ser: z1 = bajo, z2=medio, z3 = bajo, z4 =alto, z5 =alto
10

10

CLASIFICACIN DE VARIABLES POR EL TIPO DE ANLISIS


Una variable es cuantitativa, cuando es una variable en la que hay unidad de medida y por tanto los datos se pueden representar por expresiones numricas, con las que se puede hacer operaciones aritmticas. Una variable es cualitativa cuando es una variable en la que no hay una unidad de medida y los datos aunque se pueden representar por expresiones numricas no es posible realizar operaciones aritmticas con ellos.

CLASIFICACIN POR LA PRESENCIA DE ESPACIOS ENTRE LOS VALORES


Una variable continua es aquella que no est restringida a tomar solamente valores aislados. Puede tomar cualquier valor en el intervalo de la recta. Una variable continua es susceptible (aunque no lo haga de hecho) de tomar una infinidad de valores en un continuo. En este tipo de variable no hay presencia de espacios entre los valores que puede tomar la variable. Una variable discreta es la que puede tomar solamente un nmero finito de valores. Los valores son nmeros enteros. En este tipo de variable hay presencia de espacios entre los valores que puede tomar la variable.

11

12

11

12

Ejemplo
La siguiente es la lista de caractersticas tomadas en una encuesta a jvenes universitarios de una universidad privada: Determine el tipo de variable que le corresponde a cada caracterstica. - Edad (en aos) - Gnero - Especialidad que estudia - Ciclo de estudios que cursa - Promedio ponderado de notas - Nmero de crditos matriculados - Escala de pensiones - Aptitud Numrica medida en un test de 100 preguntas
13

3. TABLAS DE DISTRIBUCION DE FRECUENCIAS

Una tabla de distribucin de frecuencias es aquella que presenta los datos de manera que se pueda conocer como se distribuyen los valores de la variable observados.

14

13

14

Ejemplo 1: En esa investigacin se registr el sexo del alumno estas fueron las respuestas de los 56 alumnos: F , M, M, M , F, F, M, M, F, M, F, M, F, M, F, F, F, F, F, M M, F, M, M, F, F, M, F, F, M, M, M, F, F, M, F, M, M, F, F, M, M, M, M, F, M, M, M, F, F, M, F, M, F, M, M. donde M: Masculino y F: Femenino Ejemplo 2: Para cada alumno se tiene sus resultados en una prueba de Matemticas de 0 a 100 puntos. Los valores se listan a continuacin: 73 , 81, 44, 69 ,30, 38, 75, 66, 76, 84, 72, 82, 58, 89, 73, 59, 87, 63, 43, 59, 64, 74, 63, 63, 48, 52, 77, 68, 47, 53, 63, 72, 52, 55, 75, 43, 67, 61, 87, 39, 62, 75, 69, 53, 79, 95, 50, 38, 70, 84, 82, 95, 59, 75, 36, 65.
15

Ejemplo 1 Variables cualitativas 1. Identificar las modalidades de la variable 2. Elaborar la tabla de frecuencia de los datos de acuerdo a las modalidades de la variable 3. Obtener medidas complementarias para la tabla elaborada

Modalidades Masculino Femenino Total de casos

Frecuencia 30 26 56

% 53,6 46,4 100

Grados 193 167 360

Se tiene que el 53,6 % de los encuestados es de gnero masculino. Si representramos este resultado como un rea de la circunferencia se tendra un rea de 193 , es decir, ms de una semicircunferencia.

16

15

16

Ejemplo 2: Variables cuantitativas 1. Ordenar los datos identificando el menor valor y el mayor valor 2. Establecer el nmero de intervalos en los que se piensa representar los datos 3. Calcular la amplitud o recorrido de los datos 4. Calcular el ancho de los intervalos a formar 5. Elaborar los intervalos que incluyen a todos los datos 6. Elaborar la tabla de frecuencia de los datos segn los intervalos 7. Obtener medidas complementarias para la tabla elaborada

K= 1 + 3.3 Log n en la que: K: nmero de intervalos o clases n: nmero de datos (tamao de la muestra) Log: logaritmo natural en base 10
A = valor mximo valor mnimo

C=A/k

Intervalos 1 2 3 4 5 6 7

Ancho [30 40[ [40 50[ [50 60[ [60 70[ [70 80[ [80 90[ [90 100] Total de datos

xi 35 45 55 65 75 85 95

ni 5 6 9 14 12 8 2 56

Ni 5 11 20 34 46 54 56

fi 0.09 0.11 0.16 0.25 0.21 0.14 0.04 1.00

Fi 0.09 0.20 0.36 0.61 0.82 0.96 1.00

% 9 11 16 25 21 14 4 100

% acum 9 20 36 61 82 96 100

17

18

17

18

Frecuencia

Se tiene que las frecuencias, van cambiando a partir del valor 2 en el primer intervalo hasta alcanzar los valores de 14 y 12 en los intervalos 4 y 5 para luego decrecer en los intervalos 6 y 7. Esto sugiere que la mayora de los estudiantes tienen notas intermedias entre los intervalos 4 y 5 (de 60 a 80 puntos). Que hay pocos estudiantes con notas bajas y notas altas. Este resultado tambin se puede seguir si es que se analizan las frecuencias relativas y los porcentajes. Son los intervalos 4 y 5 los que presentan las mayores proporciones o porcentajes. Otras interpretaciones que pueden hacerse son: el 16 % de los escolares tiene notas por debajo de 60 puntos. El 14 % de los escolares tiene notas entre 80 y 90 puntos. El 100-82 =18 % tiene notas desde 80 puntos.

4. GRAFICAS
Tipo de variable Cualitativas Cuantitativas Tipo de grfico Grfico de barras Grfico de sectores circulares Histograma Polgono de frecuencias
Grfico de Barras
40

30

Grfico de Sectores Circulares


Femenino

20

10

16

Masculino

Femenino

14 12

Masculino

Sexo

Histograma
16 14 12

Frecuencia

10 8 6 4

10 8 6

2 0 0 33 43 53 63 73 83 93 100

Frecuencia

4 2 0 33 43 53 63 73 83 93

Notas

19

Notas

20

19

20

GRAFICOS POR COMPUTADORA Los grficos presentados se pueden realizar empleando tambin los porcentajes de frecuencia ( % ). En los programas de computadora de Microsoft Office como Word , Excel o Power point se pueden hacer este tipo de grficos y otros ms complejos que los presentados aqu. En los programas estadsticos como SPSS, SPLus y SYSTAT se disponen tambin muchos ms grficos. En Microsoft Office hay un asistente para grficos que se activa presionando el icono insertar grfico

4. MEDIDAS ESTADISTICAS
Las medidas estadsticas son estadsticas basadas en datos muestrales. Son de tres tipos:
Medidas de Tendencia Central: representan el comportamiento medio al interior de los datos. Responde a la pregunta: cul es el valor medio de los datos?. Medidas de Dispersin: representan el comportamiento de variabilidad entre los datos. Responde a la pregunta: cul es la variabilidad de los datos?, cuan dispersos son? Medidas de Deformacin: representan el comportamiento de la distribucin de los datos. Responde a las preguntas los datos tienen sesgo?, los datos se acumulan en el centro?.

21

22

21

22

4.1 TENDENCIA CENTRAL


Para un grupo de datos correspondiente a una variable la moda es el valor de la variable que ms se repite. Para un grupo de n datos ordenados, la mediana es el valor central, si n es impar y es igual al promedio de los dos datos centrales, si n es par. La media aritmtica o simplemente media de un grupo de datos, simbolizados por x1 ...., xn es el nmero

Considere los siguientes valores de una variable y la frecuencia de cada valor


xi 6.5 9.5 12.5 15.5 18.5 21.5 ni 3 6 2 9 3 1 fi 0.125 0.25 0.083 0.375 0.125 0.041

Si los valores son x1 ......xk y sus frecuencias son respectivamente, n1 ...., nk donde n1 +.........+ nk = n, entonces la media ponderada se calcula con :

x=

xi
i =1

x=

k x1n1 + x2 n2 + ... + xk nk = xi f i n1 +n 2 +... +n k i =1

donde fi = ni/n (frecuencia relativa de xi).


23 24

23

24

4.2 MEDIDAS DE DISPERSION


El rango de los datos es la distancia entre el mayor y menor valor de los datos. R=Max Min La varianza muestral de un grupo de datos, simbolizados por x1 ...., xn es el nmero obtenido de cualquiera de las dos expresiones:
S =
2

4.3 MEDIDAS DE DEFORMACION


En las distribuciones cuyas grficas son unimodales, la asimetra se mide con el coeficiente de Simetra de Pearson o sesgo de Pearson es:

A1 =

Media Moda S

(x x ) x
2 i =1 i

n 1

i =1

2 i

nx 2

n 1

La desviacin estndar S es la raz cuadrada de la varianza S2. El error estandar EE se define por

En distribuciones que no son muy asimtricas se cumple que Moda Media 3 (Media Mediana), por tanto se puede aproximar, un segundo coeficiente :

A2 =

EE = S /

3(Media Mediana) S

A2 se usa cuando existen mltiples modas.

Para comparar la dispersin entre dos o ms grupos de datos se usa el coeficiente de variabilidad

CV =

S 100% x
25 26

25

26

A<0 Asimetra Negativa a la Izquierda

A=0 Simtrica

A>0 Asimetra Positiva a la Derecha.

El coeficiente de Curtosis es una medida del apuntalamiento del polgono de frecuencias correspondiente a un grupo de datos. Se define por igual para datos simples y que provienen de una tabla de frecuencias como:

k=

0.5 (P75 P25 ) (P90 P10 )

donde Pa es el percentil a de los datos. Es decir el valor que ocupa el puesto a %. En este caso estamos interesados en los percentiles con a=10, 25, 75 y 90. Para datos simples se tiene que identificar el dato que ocupa el puesto an/100.

27

28

27

28

Para mirar la curtosis de los datos se usa el polgono de frecuencias.

Ejemplo 2
Medidas estadsticas Datos Media 64.8 Mediana 65.5 Tendencia Moda 63 y 75 central Amplitud 66 Varianza 246 Dispersin Desviacin 15.7 Estndar Coeficiente de 24.2 variabilidad Asimetra 0.11 , -0.65 y Deformacin 0.13 Curtosis 0.27
30

K0 (K=0) Platicrtica

K0.25 Mesocrtica

K0.5 Leptocrtica

Si k se acerca a 0.5, se dice que la distribucin es leptocrtica o picuda o puntiaguda. Si k se acerca a 0.25, se dice que la distribucin es mesocrtica o moderada Si k se acerca a 0, se dice que la distribucin es platicrtica o achatada o plana.
29

29

30

MEDIDAS ESTADISTICAS CON EXCEL


Si se tienen datos originales y se dispone de una calculadora o computadora es mejor trabajar con los datos originales, para tener resultados exactos. En el programa Excel se puede calcular todas las medidas estadsticas que hemos presentados. Sin embargo el clculo de la Asimetra y Curtosis sigue otras frmulas ms precisas. Coeficiente de Asimetra = El dato de curtosis con Excel difiere del obtenido en los clculos de la tabla de frecuencia porque ha sido diseado para que la curtosis representa la elevacin o achatamiento de una distribucin, comparada con la distribucin normal (que veremos mas adelante) y tiene curtosis 0. En la salida de excel: Es una curtosis positiva indica una distribucin relativamente elevada o leptocrtica, Una curtosis negativa indica una distribucin relativamente plana o platicrtica Una curtosis cero indica que la distribucin es mesocrtica.

n (n 1)(n 2)
n

( xi x ) 3
i =1

S3

Con lo datos se obtiene Asimetra = -0,21 Curtosis =

n(n + 1) (n 1)(n 2)(n 3)

( xi x ) 4
i =1

S4

3(n 1) 2 (n 2)(n 3)
31

Con los datos se obtiene una curtosis de 0.56.


32

31

32

Ejemplos
En el anlisis de la rentabilidad de la inversin en dlares se tom una muestra aleatoria de 50 das. Los valores encontrados se muestran a continuacin. Elabore una tabla de frecuencias y obtenga medidas estadsticas. 1, 91, 22, 43, 73, 64, 50, 81, 93, 41, 31, 61, 00, 91, 41, 50, 81, 71, 82, 21, 81, 81, 83, 82, 02, 01, 75, 03, 16, 01, 64, 41,12, 73, 14, 92, 01,72, 81, 82, 91, 11, 51, 11, 82, 12, 11, 85, 51, 01, 5 Considere las siguientes variables obtenidas en 10 ensayos de un robot mecnico x= tiempo, en segundos, que toma el brazo robot para recoger un papel 12.1 11.6 12.5 8.2 11.9 10.0 7.54 7.4 9.1 10.6 y = tiempo, en segundo que toma para recoger una tiza 17.5 16.0 19.0 15.9 15.8 13.6 12.9 14.2 15.4 14.2 Compare la variabilidad de los tiempos usados por el robot en las dos tareas y comente.

33

34

33

34

En la siguiente tabla son mostradas las medidas estadsticas bsicas sobre el nmero de minutos de fabricacin de una pieza metlica obtenida bajo 4 sistemas alternativos diferentes.
Sistema A 12 10 11 4 16 8 9 0.28 0.5 33.3 Sistema B 10 12 13 5 25 9 10 0.50 -0.4 50 Sistema C 11 10 12 6 36 6 7 0.45 0.17 Sistema D 9 9 11 6 36 5 6 0.14 0 66.7

Media Moda Mediana Desv. Est. Varianza Rango Amplitud Curtosis Asimetra Coeficiente de variabilidad

Complete la informacin faltante y compare los sistemas de fabricacin. Cul de ellos sera ms recomendable?
35

35

Вам также может понравиться