Вы находитесь на странице: 1из 20

Cap tulo 1: Introducci on y Estad stica Descriptiva

Fernando A. Crespo R.

14 de Mayo de 2013

Indice 1.1 Introducci on 1.1.1 Denici on y t erminos b asicos de la estad stica 1.2 Elementos Fundamentales de Estad stica 1.3 Tipos de Datos 1.4 Estad stica Descriptiva 1.4.1 M etodos Gr acos y N umericos para Describir Datos Cualitativos 1.4.2 M etodos Gr acos para Describir Datos Cuantitativos 1.4.3 M etodos N umericos para Describir Datos Cuantitativos 1.4.4 Medidas de Tendencia Central 1.4.5 Medidas de Variaci on 1.4.6 Medidas de Posici on Relativa

1.1.1 Denici on y t erminos b asicos de la estad stica


La estad stica es la ciencia de los datos. La estad stica es aplicada com unmente a dos tipos de problemas:
Resumir, describir y explorar datos. Ejemplo: Resultados del censo. Usando muestras de datos para inferir la naturaleza del conjunto de datos desde los cuales la muestra fue seleccionada. Ejemplo: Cuando se estudia la sobrevida de las personas para calcular el valor de la prima de un seguro de vida.

Denici on (Ramas de Estudio de la Estad stica)


Las areas que estudian las diferentes problem aticas de la estad stica se reconocen como:
La rama que se dedica a resumir, describir y explorar datos se denomina estad stica descriptiva. La rama que se decida a usar muestras de datos para inferir la naturaleza del conjunto de datos desde los cuales la muestra fue seleccionada, se denomina estad stica inferencial.

1.1.1 Denici on y t erminos b asicos de la estad stica

Todo ello con el n de comprender la variablidad. Se desarrolla el pensamiento estad stico con el n de poder enfrentar la variabilidad. Esa variabilidad, puede provenir de:
desde los distintos factores que inuyen en un fen omeno: por ejemplo, pensemos en la medici on del rendimiento de [km/l] del autom ovil. Puede ser impl cita, porque las variables no se pueden medir de manera precisa, o el fen omeno tiene variabilidad. Por ejemplo: Genes, medidas at omicas.

La estad stica en conjunto con el m etodo cient co permite crear modelos coherentes capaces de soportar la variabilidad de los fen omenos.

1.2 Elementos Fundamentales de Estad stica


Una poblaci on estad stica es un conjunto de datos (usualmente grande, otras veces conceptual) que es el objetivo de inter es. Una muestra (sample) es un subconjunto de datos seleccionados de la poblaci on objetivo. El objeto (ie persona, cosa, transacci on, esp ecimen, evento, u otra construcci on) sobre el cual se observan las medidas se denomina unidad experimental. Una poblaci on puede considerarse como datos recolectados sobre muchas unidades experimentales. Una variable es una caracter stica o propiedad de una unidad experimental individual. Ejemplo: Un estudio que desea observar las esquinas que tienen m as accidentes de Barranquilla. Una inferencia es una armaci on sustentada a partir de los datos. En un problema de inferencia estad stica se puede indenticar cuatro puntos: una poblaci on, una o m as variables, una muestra, y una inferencia. Hay que a nadir la conabilidad de la inferencia, es decir, una medida que nos diga cuan verdadera es la inferencia. Una medida de conabilidad es una declaraci on (cuanticada) acerca del grado de incerteza asociada a una inferencia estad stica.

1.2 Elementos Fundamentales de Estad stica

Cuatro elementos de Problemas de Estad stica Descriptiva:


La poblaci on o muestra de inter es. Una o m as variables que son investigadas. Tablas, gr acos, o herramientas de resumen n umerico.

Cuatro elementos de Problemas de Inferencia Estad stica:


La poblaci on de inter es. Una o m as variables que son investigadas. La muestra de unidades experimentales. La inferencia acerca de la poblaci on basada en la informaci on contenida en la muestra. Una medida de conabilidad para la inferencia.

1.3 Tipos de Datos

Datos Cuantitativos son los que representan cantidades de algo, medidos en una escala n umerica. Datos Cualitativos no poseen interpretaci on cuantitativa. S olo pueden ser clasicados. Ejemplo: Los n trabajos que realizan n graduados de ingenier a despu es de un a no. La clasicaci on de los estratos econ omicos, es cualitativa pero ordinal, sabemos que a mayor n umero mayor ingreso. La herramienta estad stica propiamente tal, usada para describir y analizar datos, depender a del tipo de dato. De ah la importancia de si es cuantitativo o cualitativo.

1.4 Estad stica Descriptiva

El objetivo es presentar m etodos gr acos y n umericos para explorar, resumir, y describir datos.

1.4.1 M etodos Gr acos y N umericos para Describir Datos Cualitativos


Asumiendo que tenemos un conjunto de datos reunidos de inter es para uno, Como podemos darle sentido? C omo podemos organizarlos de tal forma que sean m as comprensibles y signicativos? La respuesta depende de los datos. Cuando es cualitativo se grupa en categor as. La frecuencia de categor a (o clases) para una categor a dada es el n umero de observaciones que cuentan en esa categor a. La frecuencia relativa de la categor a (o clase) para una categor a dada es la proporci on de el n umero total de observaciones que cuentan en esa categor a. Ejemplo 1: Investigaci on de seguridad de reactores nucleares y el riesgo de uso de distintas fuentes de energ a. Accidentes observados desde 1977, publicado en Safety of nuclear power reactors. Nuclear Issues Brieng Paper 14, November 2004.

1.4.1 M etodos Gr acos y N umericos para Describir Datos Cualitativos


El gr aco de barras da la frecuencia (o frecuencia relativa) para cada categor a donde el largo de la barra es proporcional a la frecuencia (o frecuencia relativa) de la categor a. El gr aco de tortas divide un c rculo completo en trozos, uno para cada categor a, donde el angulo es proporcional la frecuencia (o frecuencia relativa) para cada categor a donde el largo de la barra es proporcional a la frecuencia (o frecuencia relativa) de la categor a. El diagrama de Pareto (en honor a Vilfredo Pareto un economista italiano) es un gr aco de barras de frecuencias, desplegadas en orden descendente. Es muy usado en control de procesos y calidad, con la primera categor a indicando la mayor falla, etc. La acumulaci on (denominada l nea de acumulaci on) es gracada con una l nea impuesta sobre las barras.

1.4.2 M etodos Gr acos para Describir Datos Cuantitativos


Los datos cuantitativos son grabados en escalas n umericas signicativas. Hay m etodos gr acos de punto, despliegue stem-and-leaf (tallos y hojas), e histogramas. Los primeros dos ya no se usan, por razones de potencia gr aca y de c alculo computacional. Ejemplo 2: Datos de rendimiento de los nuevos veh culos medidos en millas por gal on, recolectados por la Environmental Protection Agency (EPA). El histograma es un gr aco que se construye de partir de generar intervalos de clases para los cuales contamos la frecuencia de datos observados que caen en los distintos intervalos de clases. Desventaja, no muestra el valor de las medidas individuales, por ejemplo, el hecho que se repita un punto.

1.4.2 M etodos Gr acos para Describir Datos Cuantitativos


Pasos a seguir para construir un histograma:
1. C alculo del rango de los datos: rango = m aximo dato observado - m nimo dato observado. 2. Divida el rango entre 5 a 20 clases de igual ancho. El valor m as bajo va primero. 3. Por cada clase, se cuenta el n umero de observaciones en esa clase. Ello es denominado la frecuencia de la clase. 4. Calcular cada frecuencia relativa de clase: Frecuencia relativa de clase = Frecuencia de clase . N umero total de medidas

5. El histograma es un gr aco de barras en el cual las categor as son conjunto. Si es un histograma de frecuencia, las alturas son determinadas por la frecuencia de clases. Y en un histograma de frecuencia relativa de clase, las alturas de las barras son determinadas por la frecuencia relativa de clase.

1.4.3 M etodos N umericos para Describir Datos Cuantitativos


Las medidas descriptivas n umericas son valores calculados desde los datos, y nos ayuda a crear una imagen mental de su histograma de frecuencias relativas. Las medidas a presentar est an en tres categor as:
1. Las que ayudan a localizar el centro de la distribuci on de las frecuencias relativas. 2. Las que miden la dispersi on alrededor del centro. 3. Las que miden la posici on relativa de una observaci on dentro del conjunto de datos.

Una estad stica es una medida num erica calculada desde la muestra de datos. Un par ametro es una medida num erica descriptiva de una poblaci on, generalmente notada con s mbolos griegos.

1.4.4 Medidas de Tendencia Central


La media aritm etica de un conjunto de n medidas, x1 , . . . , xn , es el promedio de las medidas:
n

xi , (1) n tambi en se denomina media muestral, como la media de una muestra de n medidas. La mediana de un conjunto de n medidas, x1 , . . . , xn , es el n umero medio cuando las medidas son arregladas en orden ascendente (o descendente), i.e, el valor de x localizado a la mitad del area bajo el histograma de frecuencia relativa que tiene lugar a su izquierda y la mitad del area que tiene lugar a su derecha. Se usa el s mbolo m para representar la mediana de la muestra, y para representar la mediana de la poblaci on. Si x(i ) denota el i - esimo valor de la muestra cuando esta ordenada en orden ascendente. La mediana de la muestra es calculada como sigue: si n es impar x (n+1) 2 x n +x n . (2) m= ( 2 ) ( 2 +1) si n es par 2 x n =
i =1

1.4.4 Medidas de Tendencia Central

La moda de un conjunto de n medidas, y1 , . . . , yn , es el valor de x que ocurre con mayor frecuencia. La media es la medida preferida de tendencia central, pero no dice nada respecto de la as metria (skewness) (la cola de la distribuci on). La mediana es denominada una medida de resistencia de la tendencia central, ya que la media, es resistente a las inuencias de observaciones extremas. La moda s olo es importante si la frecuencia relativa de x es de inter es.

1.4.5 Medidas de Variaci on


Las medidas de variaci on m as usadas son el rango, la varianza y la desviaci on est andar. El rango es igual a la diferencia entre la mayor y la menor medida en un conjunto de datos: rango = m aximo dato observado - m nimo dato observado. (3)

La varianza de una muestra de n medidas, x1 , . . . , xn , es denida como: n n 2 2 xi2 nx n (xi x n ) 2 = i =1 , (4) sn = i =1 n1 n1 La varianza de una poblaci on nita con n medidas es denida como:
n

(xi ) 2 =
i =1

n1

(5)

1.4.5 Medidas de Variaci on

La desviaci on est andar de una muestra de n medidas es igual a la ra z de la varianza:


n

(xi x n ) sn =
2 = sn i =1

n1

(6)

La desviaci on est andar de una poblaci on es: = 2 . Ver Ejemplo 2, varianza.

(7)

1.4.6 Medidas de Posici on Relativa


Las medidas de Posici on Relativa de una observaci on son los percentiles y los z-scores, e indican la localizaci on de una observaci on relativa respecto a otros puntos en la distribuci on. El percentil 100p de un conjunto es un valor de x localizado tal que el 100p % de el area bajo la distribuci on de frecuencia relativa para los datos est a contenida a la izquierda de el 100p percentil y 100(1 p )% del area est a contenida a su derecha. (Notar que 0 p 1.) El cuartil m as bajo, QL , para un conjunto de datos es el percentil 25 . El cuartil medio o mediana, m, para un conjunto de datos es el percentil 50 . El cuartil superior, QU , para un conjunto de datos es el percentil 75 .

1.4.6 Medidas de Posici on Relativa

Pasos a seguir para construir cuartiles:


1. Ordene los datos de menor a mayor. Sean x(1) , . . . , x(n) los datos ordenados. 1 (n + 1) y redonde e al entero m as cercano. 2. C alcule la cantidad l = 4 La medida con este rango, x(l ) , representa el cuartil m as bajo o percentil 25 . (n + 1) y redonde e al entero m as cercano. 3. C alcule la cantidad u = 3 4 La medida con este rango, x(u) , representa el cuartil m as alto o percentil 75 .

Ver ejemplo 2.

1.4.6 Medidas de Posici on Relativa

El z-scores para un valor x del conjunto de datos es la distancia de x sobre o bajo la media, en unidades de la desviaci on est andar: z-cores muestra = x x n , sn x . (8) (9)

z-cores poblaci on =

Вам также может понравиться