Вы находитесь на странице: 1из 43

Estadstica Descriptiva o Anlisis Exploratorio de datos Introduccin La idea original de la "estadstica" era la recoleccin de informacin sobre y para el "estado".

La palabra estadstica se deriva directamente, no de races griegas o latinas clsica, sino de la palabra italiana estado. El nacimiento de la estadstica se ubica a mediados del siglo XVII. Un ciudadano comn llamado Juan Graunt, nacido en Londres, comenz a revisar la publicacin semanal de la iglesia, la cual era distribuida en la parroquia local y que listaba el numero de nacimientos, bautizos, y de muertes en cada parroquia. Las cifras de mortalidad tambin enumeraban las causas de las muertes. Graunt que era comerciante organiz estos datos en la forma que hoy llamamos estadstica descriptiva, la cual fue publicada como Observaciones Naturales y Polticas hechas sobre la tasa de Mortalidad. Luego de la publicacin, fue elegido como miembro de la sociedad real. De esta forma, la estadstica tomo prestados algunos conceptos de la sociologa, tal como el concepto de poblacin. El anlisis exploratorio de datos utiliza tcnicas grficas y numricas para estudiar patrones de conducta y el origen de los mismos. Las tcnicas de estadstica descriptiva normalmente usadas son: Distribucin de frecuencia; Histogramas, Boxplot, Grficos de Dispersin, diagramas de barras y errores, diagramas de diagnstico. Cuando se examina la distribucin de los datos, se debe detectar algunas caractersticas importantes, tales como forma, ubicacin, variabilidad, y valores inusuales. Mediante una cuidadosa observacin de los patrones en los datos, se puede generar conjeturas acerca las relaciones entre variables. La nocin de cmo una variable puede estar asociada a otra esta inmersa en casi todo el anlisis estadstico, lo que se puede realizar por ejemplo, mediante el anlisis regresin lineal. Los datos deben ser recolectados acorde al desarrollo de un plan que garantice que la informacin es vlida para los objetivos planteados. El plan debe identificar las variables importantes que estn relacionados con los objetivos, y especificar cmo estas van a ser medidas. Frecuentemente, por ejemplo las personas relacionadas con estudios de calidad o mejoramiento de los procesos productivos se enfrentan con la pregunta, qu tamao de muestra es necesario? Esta es una comn e importante decisin estadstica, y que debe ser tomada en consideracin, puesto que un tamao de muestra inadecuado conduce a un inevitable desperdicio y desaprovechamiento de recursos. Los datos son conocidos como informacin cruda y no como conocimientos en s. La secuencia que va desde los datos hasta el conocimiento aparece en el grfico 1. Los datos se convierten en informacin, cuando se hacen relevantes para la toma de decisin de un problema. La informacin se convierte en hecho, cuando es respaldada por los datos. Los hechos son lo que los datos revelan. Sin embargo el conocimiento instrumental es expresado junto con un cierto grado estadstico de confianza .

La figura anterior representa el hecho que a medida que la exactitud de un modelo estadstico aumenta, el nivel de mejoramiento en la toma de decisin aumenta. Esta es la razn del porqu necesitamos la estadstica. La estadstica se creo por la necesidad de poner conocimiento en una base sistemtica de la evidencia. Esto requiri un estudio de las leyes de la probabilidad, del desarrollo de las propiedades de medicin, relacin de datos. La inferencia estadstica intenta determinar si alguna significancia estadstica puede ser adjudicada, luego que se permita una variacin aleatoria como fuente de error. Una inteligente y crtica inferencia no puede ser hecha por aquellos que no entiendan el propsito, las condiciones, y la aplicabilidad de las de diversas tcnicas para juzgar el significado.

La finalidad del Anlisis Exploratorio de Datos (AED) o Estadstica Descriptiva es examinar los datos previamente a la aplicacin de cualquier tcnica estadstica. De esta forma el analista consigue un entendimiento bsico de los datos y de las relaciones existentes entre las variables analizadas. El Anlisis Exploratorio de Datos proporciona mtodos sencillos para organizar y preparar los datos, detectar fallas en el diseo y recogida de datos, tratamiento y evaluacin de datos ausentes, identificacin de casos atpicos y comprobacin de los supuestos subyacentes en la mayor parte de las tcnicas multivariantes. En este curso se va a dar una breve visin general de dicho conjunto de tcnicas exponiendo, brevemente, cul es su finalidad, ilustrada con ejemplos. Las preguntas ms frecuentes cuando tenemos un conjunto de datos son: Existe algn tipo de estructura (normalidad, multimodalidad, asimetra, curtosis, linealidad, homogeneidad entre grupos, homocedasticidad, etc.) en los datos que se van a analizar? Existe algn sesgo en los datos recogidos? Hay errores en la codificacin de los datos? Cmo se sintetiza y presenta la informacin contenida en un conjunto de datos? Existen datos atpicos (outliers)? Cules son? Cmo tratarlos? Hay datos ausentes (missing)? Tienen algn patrn sistemtico? Cmo tratarlos? Los objetivos de este curso son: 1) Definir qu es el Anlisis Exploratorio de Datos (A.E.D.) y cules son sus objetivos. 2) Indicar cules son las etapas a seguir en la realizacin de un A.E.D. 3) Seleccionar los mtodos grfico y numrico apropiados para examinar las caractersticas de los datos y/o relaciones de inters. 4) Comprobar si se verifican algunas hiptesis de inters en los datos (normalidad, linealidad, homocedasticidad). 5) Identificar casos atpicos univariantes, 6) Comprender los diferentes tipos de datos ausentes y evaluar su impacto potencial. Qu es el anlisis exploratorio de datos? El Anlisis Exploratorio de Datos (A.E.D.) es un conjunto de tcnicas estadsticas cuya finalidad es conseguir un entendimiento bsico de los datos y de las relaciones existentes entre las variables analizadas. Para conseguir este objetivo el A.E.D. proporciona mtodos sistemticos sencillos para organizar y preparar los datos, detectar fallos en el diseo y recogida de los mismos, tratamiento y evaluacin de datos ausentes (missing), identificacin de casos atpicos (outliers) y comprobacin de los supuestos subyacentes en la mayor parte de las tcnicas multivariantes (normalidad, linealidad, homocedasticidad). El examen previo de los datos es un paso necesario, que lleva tiempo, y que habitualmente se descuida por parte de los analistas de datos. Las tareas implcitas en dicho examen pueden parecer insignificantes y sin consecuencias a primera vista, pero son una parte esencial de cualquier anlisis estadstico.

Etapas del a.e.d. Para realizar un A.E.D. conviene seguir las siguientes etapas: 1) Preparar los datos para hacerlos accesibles a cualquier tcnica estadstica. 2) Realizar un examen grfico de la naturaleza de las variables individuales a analizar y un anlisis descriptivo numrico que permita cuantificar algunos aspectos grficos de los datos. 3) Realizar un examen grfico de las relaciones entre las variables analizadas y un anlisis descriptivo numrico que cuantifique el grado de interrelacin existente entre ellas. 4) Evaluar, si fuera necesario, algunos supuestos bsicos subyacentes a muchas tcnicas estadsticas como, por ejemplo, la normalidad, linealidad y homocedasticidad. 5) Identificar los posibles casos atpicos (outliers) y evaluar el impacto potencial que puedan ejercer en anlisis estadsticos posteriores. 6) Evaluar, si fuera necesario, el impacto potencial que pueden tener los datos ausentes (missing) sobre la representatividad de los datos analizados. Preparacin de los datos El primer paso en un A.E.D. es hacer accesible los datos a cualquier tcnica estadstica. Ello conlleva la seleccin del mtodo de entrada (por teclado o importados de un archivo) y codificacin de los datos as como la de un paquete estadstico adecuado para procesarlos. Los paquetes estadsticos son conjuntos de programas que implementan diversas tcnicas estadsticas en un entorno comn. Algunos de los ms utilizados son SAS, BMDP, SPSS, SYSTAT, STATISTICA, STATA, MINITAB, S-PLUS, EVIEWS, STATGRAPHICS y MATLAB y el utilitario EXCEL. La codificacin de los datos depende del tipo de variable. Los paquetes estadsticos existentes en el mercado proporcionan diversas posibilidades (datos tipo cadena, numricos, nominales, ordinales, etc). La inmensa mayora de los paquetes estadsticos permite realizar manipulaciones de los datos previas a un anlisis de los mismos. Algunas operaciones tiles son las siguientes: - Combinar conjuntos de datos de dos archivos distintos - Seleccionar subconjuntos de los datos - Dividir el archivo de los datos en varias partes - Transformar variables - Ordenar casos - Agregar nuevos datos y/o variables - Eliminar datos y/o variables Guardar datos y/o resultados Finalmente, y con el fin de aumentar la utilidad de los datos almacenados, conviene asociar a la base de datos utilizada, un libro de cdigos en el que se detallen los nombres de las variables utilizadas, su tipo y su rango de valores, su significado as como las fuentes de donde se han sacado los datos. Todos los paquetes anteriormente citados permiten esta posibilidad.

Anlisis estadstico unidimensional Una vez organizados los datos, el paso siguiente consiste en realizar un anlisis estadstico grfico y numrico de las variables del problema con el fin de tener una idea inicial de la informacin contenida en el conjunto de datos, as como tambin detectar la existencia de posibles errores en la codificacin de loso mismos. Para iniciar el estudio del anlisis estadstico se definen algunos conceptos propios de la terminologa de la Estadstica Descriptiva o anlisis exploratorio de datos. Poblacin: es el conjunto de todos los elementos de inters para un determinado problema. A los elementos que conforman la poblacin se les llama unidad observable o unidad de observacin. Poblacin finita: cuando el nmero de elementos que la forman es finito, por ejemplo el nmero de alumnos de su colegio, o de su curso. Poblacin infinita: cuando el nmero de elementos que la forman es infinito, o tan grande que pudiese considerarse infinita. Como por ejemplo si se realiza un estudio sobre los productos que hay en el mercado. Hay tantos y de tantas calidades que esta poblacin podra considerarse infinita. Llamamos observacin o dato a cualquier valor cualitativo o cuantitativo asociado a una variable. Muestra: Un subconjunto de una poblacin o universo. Es importante que el investigador defina total y cuidadosamente a la poblacin antes de recolectar la muestra, incluyendo una descripcin de los elementos. Unidad de Muestreo: Una unidad es una persona, un animal, una planta o una cosa que son estudiadas por un investigador; son los objetos bsicos sobre los cuales se ejecuta el estudio o el experimento. Por ejemplo, una persona; una muestra de suelo; un pote de semillas; el rea de especializacin de un medico. Una medida descriptiva relacionada, cuando consideramos toda la poblacin, se denomina parmetro. Los parmetros generalmente se designan por letras griegas. Uno de los parmetros mas utilizado es el promedio o media aritmtica y la desviacin estndar designados por , 2 respectivamente. Una medida descriptiva relacionada con una muestra, se denomina estadstico. Los estadsticos tienen dos fines. Describen la muestra que est disponible y sirven como aproximacin a los parmetros correspondientes de la poblacin. POBLACION PARAMETROS MUESTRA
ESTADISTICOS

Ejemplo: Suponga que el gerente de una tienda desea saber el valor de , el gasto promedio por cliente de su tienda durante el ao pasado. El puede calcular el gasto promedio de los miles de clientes que compraron en su tienda durante el ao pasado; es decir, la media poblacional . En lugar de esto, el podra utilizar una estimacin de la media poblacional calculando la media de una muestra aleatoria de clientes. Si se encontrara que el valor fuera de $50000, estos $50000 seran su estimacin. Variables Cualitativas y Cuantitativas: El tipo de anlisis a realizar depende del tipo, y la escala de medida de la variable a analizar. Variable: Es una caracterstica o fenmeno, que pueden tomar diversos valores tales como peso, sexo, ya que los mismos son diferentes entre individuos. Si se observa una sola caracterstica a cada unidad observable, entonces la variable se denomina unidimensional. Si se observan simultneamente dos caractersticas a cada unidad observable, entonces la variable se denomina bidimensional o bivariada, y as sucesivamente. Se distinguen dos tipos de variables: cualitativa y cuantitativa. Variables Cualitativas Una variable cualitativa es aquella cuyos valores corresponden a conceptos, categoras atributos o cualidades como, por ejemplo, el sexo, la profesin de una persona, nivel de estudio, estado civil, etc. Si en dichas categoras hay un orden subyacente se denomina variable ordinal, si no se denomina variable nominal Los datos o elementos de una variable cualitativa se agrupan en forma natural en diferentes categoras o clases y se cuenta el nmero de datos que aparecen en cada una de ellas. Generalmente se representan grficamente mediante grficos de barra, sectores (o circulares), lneas, pictogramas, Ejemplo 1 Suponga que se extrae una muestra de 402 clientes de un supermercado y se les consulta por el estado civil de ellos. La tabla 1 muestra el resumen de esta variable.
Tabla 1. Tabla de frecuencia del Estado Civil Porcentaje Frecuencia ni hi Soltero 77 19,2% Casado 305 75,9% Viudo 16 4,0% Separado 4 1,0% 402 100,0% Total

Se observa que la mayor parte de los clientes (75,9%) son casados lo que constituye el valor mas frecuente denominado moda, y apenas concurren personas separadas (4%)
Estado Civil Clientes Supermercado

Viudo 4,0%

Separado 1,0%

Soltero 19,2%

Casado 75,9% Soltero Casado Viudo Separado

Figura 1: Grfico de sectores o circular del Estado Civil

Estado Civil
305 N de clientes 300 200 100 0 Soltero Casado Viudo Separado Categoras 77 16 4

Figura 2: Grfico de Barra del Estado Civil

Ejemplo 2.- Suponga que la distribucin de frecuencia del Nivel de Estudio de cierta ciudad en un determinado ao es:
Tabla 2. Tabla de frecuencia del Nivel de Estudio
Frecuencia Porcentaje Frecuencia Porcentaje acumulada Acumulado ni hi Ni Hi 2350 0,8% 2350 0,8% 78856 25,7% 81206 26,4% 65745 105750 18735 35754 307190 21,4% 34,4% 6,1% 11,6% 100,0% 146951 252701 271436 307190 47,8% 82,3% 88,4% 100,0%

Sin estudios Estudios bsicos Enseanza media incompleta Enseanza media completa Enseanza Superior incompleta Enseanza Superior completa Total

Enseanza Superior completa 1,6% 1

Nivel de estudios
Sin estudios 0,8% Estudios bsicos 25,7%

Enseanza Superior incompleta 6,1 %

Enseanza media completa 34,4%

Enseanza media incompleta 21 ,4%

Figura 3. Grfico de sectores del Nivel de Estudio


Nivel de Estudios
40,0% 35,0% 30,0% 25,0% 20,0% 15,0% 10,0% 5,0% 0,0% Sin estudios Estudios Enseanza Enseanza Enseanza Enseanza bsicos media media Superior Superior incompleta completa incompleta completa

Porcentaje

Nivel de estudio

Figura 4. Grfico de Barra del Nivel de Estudio El nivel de estudio ms frecuente o el valor modal es enseanza media completa con un 34,4% y sin estudio solo un 0,8%. Tambin podemos observar que el valor mediano est en la categora enseanza media completa. El valor mediano es el valor central del conjunto ordenado de datos si es impar, si es par es el valor promedio de los dos datos centrales. Variables Cuantitativas Variables cuantitativas son aquellas que se pueden expresar numricamente, es decir, pueden tomar valores reales. Una primera clasificacin, basada en el tipo de valores que puede tomar, permite distinguir entre variables cuantitativas discretas que son aquellas donde el conjunto de valores que puede asumir la variable se puede enumerar. Este conjunto puede ser finito o infinito, por ejemplo, el nmero de paneles producidos en un da. y variables cuantitativas continuas que son aquellas que pueden asumir cualquier valor en algn intervalo real, por ejemplo, la temperatura aplicada en el proceso de produccin de los paneles. Las variables cuantitativas discretas con un nmero pequeo de valores se tratan de forma similar a las variables cualitativas. La diferencia es que en estos casos se

puede realizar un anlisis descriptivo numrico, el cual permite describir diferentes caractersticas del conjunto de datos. Ejemplo 3.- El nmero de personas que viven en la casa de una muestra de 50 familias son:
Tabla 3. Tabla de datos del N de personas que viven en la casa
N de N de N de N de N de Corr. personas Corr. personas Corr. personas Corr. personas Corr. personas 1 1 11 4 21 6 31 4 41 3 2 2 12 6 22 5 32 2 42 1 3 1 13 5 23 2 33 1 43 2 4 3 14 4 24 2 34 3 44 5 5 4 15 2 25 2 35 4 45 6 6 5 16 2 26 1 36 5 46 4 7 2 17 3 27 3 37 2 47 3 8 1 18 3 28 2 38 2 48 2 9 3 19 1 29 5 39 1 49 1 10 5 20 1 30 6 40 2 50 3

Cuando el conjunto de datos discretos es pequeo se puede construir tablas de frecuencia donde cada clase es uno de sus valores numricos.
Tabla 4. Tabla de frecuencias del N de personas que viven en casa
Frecuencia Porcentaje N de Frecuencia Porcentaje acumulada Acumulado personas ni hi Ni Hi 1 10 20% 12 24% 2 14 28% 26 52% 3 9 18% 35 70% 4 6 12% 41 82% 5 7 14% 48 96% 6 4 8% 52 104% Total 50 100%
N de personas que viven en una casa
14 12 10 8 6 4 2 0 14 10 9 6

N de casas

7 4

N de personas

Figura 5. Grfico de Barra N de personas que viven en casa

Se observa que en el 28% de las casas de los encuestados viven dos personas y que solo en un 8% de las casas viven 6 personas. (El anlisis numrico lo veremos ms adelante). Las variables cuantitativas continuas generalmente se miden por escala de intervalo o por escala de razn. La escala de intervalo, adems de todas las propiedades de la escala ordinal, hace que tenga sentido calcular diferencias entre las mediciones. Ejemplos de variables con esta escala son: Temperatura de una persona. Ubicacin en una carretera respecto de un punto de referencia (Kilmetro 85 Ruta 5). Sobrepeso respecto de un patrn de comparacin. Nivel de aceite en el motor de un automvil medido con una vara graduada. La escala de razn permite, adems de lo de las otras escalas, comparar mediciones mediante un cuociente. Ejemplos de variables con la escala de razn son: Altura de personas. Cantidad de litros de agua consumido por una persona en un da. Velocidad de un auto en la carretera. La escala de intervalo tiene un cero que se establece por convencin y puede tener variaciones. Es arbitrario. Por otra parte, la escala de razn tiene un cero real, fijo, no sujeto a variaciones; es propio de la medicin hecha. Tablas estadsticas o tablas de frecuencias Distribucin de frecuencias Si la variable analizada es continua o discreta con un elevado nmero de valores distintos se tabula como una distribucin de frecuencias agrupadas y se representa grficamente mediante histogramas, polgonos de frecuencias, ojivas y boxplots con el fin de estudiar la forma de la distribucin y analizar, en particular, la posible existencia de varias modas en la misma que pongan de manifiesto la presencia de diversos grupos homogneos en la muestra. Cuando el tamao de la muestra y el recorrido de la variable son grandes, ser necesario agrupar en intervalos los valores de la variable. La tabla de frecuencia o distribucin de frecuencia ordena los datos si estos se dividen en clases o intervalos de clases mutuamente excluyentes (sin elementos comunes) y se registra el nmero de observaciones en cada clase. Para decidir la amplitud de los intervalos, necesitaremos decidir cuntos intervalos queremos? Observacin No existen criterios ptimos para elegir la cantidad de intervalos. N general, entre 5 y 15 intervalos deberan ser suficientes. Utilizar muchos o muy pocos intervalos puede ser poco informativo. Pero se pueden seguir las siguientes reglas: Algunas regla para agrupar los datos en intervalos o categoras 1. Decidir el nmero de intervalos o categoras o clases, que puede ser el nmero deseado de clases o si n es el nmero de observaciones se puede utilizar como referencia:

k n , si n no es grande k 1 + 3.22 log(n), en otro caso


2. Localizar la observacin mayor y menor, es decir el valor mximo y el valor mnimo de las observaciones. 3. Hallar la diferencia entre estos dos valores (restar mximo menos el mnimo). Esta diferencia se denomina rango o recorrido de los datos.

r =xmx xmn
4. Hallar la amplitud de la clase o del

a=

xmx xmn k

intervalo de clase.

As la divisin en clases o intervalos podra tomarse: l0 =xmn , l1 =l0 + a,, lk = l0 + ka. 5. Hallar la marca de clase de cada intervalo. Se define por

xi =

li + li 1 2

Distintos tipos de frecuencias Cuando se resume la informacin en una tabla a cada valor de la variable se le asocian determinados nmeros que representan el nmero de veces que ha aparecido, su proporcin con respecto a otros valores de la variable, etc. Estos nmeros se denominan frecuencias: As tenemos los siguientes tipos de frecuencia: Frecuencia absoluta de la clase ci es el nmero de elementos en la poblacin o muestra perteneciente a la clase ci, se designa por ni. Se cumple que

n
i =1

= n.

Frecuencia relativa porcentual de la clase ci es el cuociente fi entre la frecuencia absoluta de la clase y el nmero total de observaciones n.

hi =
Se cumple que hi = 100
i =1 k

ni * 100 n

Frecuencia acumulada Ni al nmero de elementos de la poblacin o muestra cuya modalidad es inferior o equivalente a la modalidad ci, es decir es la sume de las frecuencias absolutas de la clase ci y las anteriores a ella, Ni = n j
j =1 i

Tambin se puede determinar la frecuencia relativa acumulada porcentual. Se llama distribucin de frecuencias al conjunto de intervalos o clases junto a las frecuencias correspondientes a cada una de ellas. Una tabla estadstica o tabla de frecuencias sirve para presentar en forma ordenada los datos. Su forma general es: Modalidad Intervalos o clases de clases ci c1 l0 l1 cj lj-1 -- lj ck lk-1 -- lk Frec. Abs. ni n1 nj nk n Frec. Rel. Porcentual hi f1= n1/n*100 fj=nj/n*100 fk=nk/n*100 100% Frec. Abs. Acumu. Ni N1=n1 Nj=n1+n2++nj Nk=n Marca de clases xi x1 xj xk

Ejemplo 4.Los siguientes datos son los ingresos anuales de 60 ejecutivos de empresas en Estados Unidos. Los datos estn expresados en miles de dlares.
Tabla 5. Datos ingreso anuales de 60 ejecutivos
58 64 79 74 69 71 65 55 73 40 76 76 74 38 62 54 79 75 72 50 89 34 56 69 56 31 47 62 64 74 45 65 71 79 38 69 46 57 69 61 67 45 85 61 69 62 77 77 51 69 34 39 87 71 79 39 66 36 50 73

Tabla 6. Tabla de frecuencias de los ingreso anuales de 60 ejecutivos


li-1 24 34 44 54 64 74 84 li+1 34 44 54 64 74 84 94 ni 3 6 8 12 19 9 3 60 hi 5,0% 10,0% 13,3% 20,0% 31,7% 15,0% 5,0% 1 Ni 3 9 17 29 48 57 60 Hi 5,0% 15,0% 28,3% 48,3% 80,0% 95,0% 100,0% xi 29 39 49 59 69 79 89

Representacin grfica Grfico de tallo y hojas Un mtodo grfico para iniciar el anlisis exploratorio de datos, y que adems proporciona informacin visual rpida, es la representacin grfica de tallo y hoja. Entrega una primera aproximacin rpida de la distribucin de los datos sin perder de vista las observaciones. Un diagrama de tallo y hoja consiste en una serie de hileras horizontales de nmeros. El nmero utilizado para designar una hilera es su tallo, el resto de los nmeros de la hilera se denominan hojas. Ejemplo 5.- La siguiente tabla muestra los datos de la fuerza de compresin de 45 muestras de aleacin de aluminio-litio.
96 108 125 112 134 120 93 94 155 135 119 103 88 148 155 132 97 113 117 156 103 111 89 124 127 139 112 125 118 138 95 142 127 104 136 113 94 117 106 125 96 107 120 139 143

a) b) c) d)

Se separa cada observacin en dos partes: tallo y hoja Se lista en forma vertical y creciente los tallos y agregamos las hojas a la derecha del tallo Generalmente las hojas es la unidad del nmero y el tallo es la decena, centena, etc. Se separa esos dgitos de los restantes, que constituirn los tallos. 8 9 10 11 12 13 14 15 89 3445667 334678 122337789 00455577 2456899 238 556

Qu podemos ver en este diagrama? Rango de las observaciones, valores mximo y mnimo. Forma de la distribucin: simetra, asimetra a la izquierda, asimetra a derecha y cuantas modas tiene la distribucin. Posicin del centro de la distribucin y concentracin de los datos. Desviaciones marcadas respecto al comportamiento general: outlier o valores atpicos. Los grficos de tallo y hoja tambin son tiles para comparar la distribucin de una variable en dos condiciones o grupos. El grfico se denomina grfico de tallo y hojas con espalda porque ambos grupos comparten los tallos.

Ejemplo 7.- Consideremos la longitud en centmetros de 20 partes consecutivas de una lnea de ensamble del proceso 1 y la longitud de 20 partes consecutivas de una lnea de ensamble del proceso 2
PROC1 PROC2 PROC1 PROC2 19.969 19.975 19.984 19.984 19.985 19.992 19.994 19.997 19.998 20.000 19.989 19.994 19.994 19.996 20.000 20.000 20.000 20.000 20.001 20.001 20.001 20.001 20.002 20.004 20.004 20.004 20.007 20.008 20.008 20.011 20.001 20.003 20.005 20.007 20.007 20.008 20.009 20.010 20.010 20.011 1996 1997 1998 1999 2000 2001 9 5 445 2478 112444788 1

9 644 9877531110000 100

En este caso vemos que el segundo proceso es menos variable que el primero que la longitud mxima para ambos proceso es 20.011 y longitud mnimo para el proceso 1 es 19.969 y para el proceso 2 es 19.989. Aunque en las tablas se puede mostrar gran cantidad de informacin estadstica, a veces es conveniente presentar esta informacin de una manera ms clara y efectiva por medio de grficos. Existen varios tipos de grficos o representaciones grficas utilizndose cada uno de ellos de acuerdo al tipo de informacin que se est utilizando y los objetivos que se persiguen al presentar la informacin Los grficos utilizados en variables cuantitativas discretas o continuas con un gran nmero de datos que se encuentran en una distribucin de frecuencias son el histograma y el polgono de frecuencias. Un histograma se construye en el plano cartesiano. En el eje de las abscisas se coloca los lmites de cada intervalo y en el eje de las ordenadas las frecuencias de clase (absoluta, relativas o relativas porcentuales), representando sobre cada intervalo un rectngulo que tiene a este segmento como base y como altura la frecuencia de cada clase. Las caractersticas geomtricas del histograma nos permiten descubrir informacin til sobre los datos, por ejemplo: 1. La localizacin del centro de los datos. 2. El grado de dispersin. 3. El lado al cual se sesga, es decir, cuando no cae simtricamente en ambos lados del mximo. 4. El grado de agudeza del mximo.

Ingreso de los ejecutivos


20 Frecuencia 15 10 5 0 29 39 49 59 69 79 89

Lim ites de clase

Figura 6. Histograma de los ingresos de los ejecutivos

El polgono de frecuencias es un grfico de lnea cerrado, en el eje de las abscisas va las marcas de clase y en el eje de las ordenadas alguna de las frecuencias (absoluta, relativas o relativas porcentuales) los puntos correspondientes a estos pares se unen mediante rectas. La marca de clase del primer y ltimo intervalo se une con la marca de clase anterior y siguiente, respectivamente.
Ingreso de los Ejecutivos 20 Frecuencia 15 10 5 0 19 29 39 49 59 69 79 89 99 Marca de clases (ingreso de los ejecutivos)

Figura 7. Polgono de frecuencia de los ingresos de los ejecutivos

La Ojiva es un grfico de lnea, en el eje de las abscisas van lo lmites superiores de cada clase y en el eje de las ordenadas la frecuencia acumulada absoluta o la frecuencia acumulada relativa porcentual.
Ingresos de los Ejecutivos Frecuencia Acumulada 70 60 50 40 30 20 10 0 24 34 44 54 64 74 84 94 Ingresos (Lim ite Superior)

Figura 8. Histograma de los ingresos de los ejecutivos

Grfico de tiempo Cuando los datos de una variable estn tomados a travs de tiempo, puede ser de gran inters el grfico de los datos a travs del tiempo o el orden en que los datos fueron obtenidos. Un grfico de tiempo llamado tambin grfico de series, es un grfico de las observaciones a travs del tiempo u orden en que fueron observados. Los puntos consecutivos se conectan con lneas para ayudarnos a determinar si se producen cambios en la distribucin a medida que pasa el tiempo. Ejemplo 6.- Los datos siguientes corresponden al nmero de estudiante que llegaron tarde al colegio A durante un periodo de tres semanas Semana 1 Semana 2 Semana 3 Lunes 10 14 9 Martes 7 5 3 Mircoles 6 10 6 Jueves 8 8 4 Viernes 11 7 6

Grfico de tiem po N de alumnos atrasados 15 10 5 0


M i rc ol es Lu ne s M ar te s Vi er ne s Ju ev es

Semana 1 Semana 2 Semana 3

Tiempo

Figura 8. Grfico de tiempo N de estudiantes que llegaron tarde al colegio

Resumen de los datos numricamente Para ampliar la informacin acerca de esta distribucin y completar as el anlisis descriptivo de una poblacin o muestra, es necesario recurrir a ciertos valores numricos que permiten cuantificar ciertas caractersticas de la distribucin. Se les llama a estos valores medidas estadsticas o estadgrafos. Las de uso frecuente en un anlisis descriptivo son las medidas de tendencia central y las medidas de dispersin. Las medidas descriptivas numricas que caracterizan lo mejor posible a los datos originales o a la distribucin de frecuencias mas frecuentes son: Las medidas tendencia central de los datos; Las medidas de dispersin o variacin con respecto a este centro; Las medidas de tendencia central permiten determinar un valor caracterstico de una distribucin de frecuencias ubicado hacia el centro de la distribucin. Las tres medidas ms usuales de tendencia central son: la media, la mediana, la moda. La media Llamada tambin promedio aritmtico o simplemente media o promedio, es una de las medidas ms importantes y de mayor uso en diversas aplicaciones estadsticas. Se denota por si es obtenida de la poblacin y por x si es obtenida de una muestra y se calcula de la siguiente manera:. i) Para datos no agrupados sea x1, x2,...xn un conjunto de n valores, entonces

x=
=
ii)

x
i =1

donde n es el tamao de la muestra

x
i =1

donde N es el tamao de la poblacin

para datos agrupados

x=

n x
i =1 i

n x
i= 1 i

donde xi es la marca de clases Observacin 1. En general, la media aritmtica obtenida a partir de las marcas de clase x i, diferir de la media obtenida con los valores reales, xi. Es decir, habr una prdida de precisin que ser tanto mayor, cuanto mayor sea la diferencia entre

los valores reales y las marcas de clase, o sea, cuando mayores sean las amplitudes ai, de los intervalos. 2. La media aritmtica es sensible a valores extremos. Proposicin 1.- La suma de la diferencia de la variable con respecto a la media es nula, es decir.

(x x) = 0
i =1 i

Proposicin 2 .- La media aritmtica del producto de una constante por una variable X es igual al producto de esta constante por la media aritmtica, es decir

cX = cX
Proposicin 3.- (Linealidad de la media) La media aritmtica entre una constante y la variable X es la suma (o diferencia) de la constante y la media aritmtica de la variable, es decir:

X +c = X +c
Proposicin 4 .- Si X e Y representan dos variables con el mismo nmero de observaciones, entonces la media aritmtica de la suma de estas variables es igual a la suma de las medias respectivas, es decir:

X +Y = Y + X
Ejemplo 6. Determinar el promedio del N de personas que trabajan en una casa del ejemplo 3.

x=

1 * 10 + 2 * 14 + 3 * 9 + 4 * 6 + 5 * 7 + 6 * 4 148 = = 2,96 50 50

El promedio de personas por hogar es de 2,96 personas. Observacin: A pesar de las buenas propiedades que ofrece la media, sta posee algunos inconvenientes: Uno de ellos es que es muy sensible a los valores extremos de la variable: ya que todas las observaciones intervienen en el clculo de la media, la aparicin de una observacin extrema, har que la media se desplace en esa direccin. En consecuencia, No es recomendable usar la media como medida central en las distribuciones muy asimtricas; Depende de la divisin en intervalos en el caso de variables continuas.

Si consideramos una variable discreta, por ejemplo, el nmero de hijos en las familias de Concepcin el valor de la media puede no pertenecer al conjunto de valores de la variable; por ejemplo x = 2.5 hijos .

Ejemplo 7. a)
2 1 0 1 2 3

La media tambin se define como el punto de equilibrio Si la distribucin es simtrica, como en la figura a), la media est exactamente en el centro de la distribucin

Media = b)
2 1 0 1

2
Cuando la observacin mayor se mueve ms a la derecha, como en la figura b) la media tiende hacia la observacin.
2 3 4 5

Media = c)
2 1 0 1 2

2,5

Si la distribucin es tiene un valor extremo, como en la figura c) la media tiende hacia este valor extremo.
3 4 5 6 7 8 9 10 11

Media =

Media geomtrica Es el producto de los valores de la variable

x g = n x1 * x 2 * ... * x n
Si los datos estn agrupados en una tabla, entonces se tiene:

x g = n x1n * x 2n * ... * x nn
1 2

Ejemplo 14.- Supongamos que la produccin de una industria ha experimentado un incremento del 25% del primer ao al segundo ao y del 40% del segundo al tercer ao. Cul es la tasa promedio de aumento durante estos dos aos?

1 ao 100 2 ao 125, 25% de variacin (incremento) 3 ao 175, 40% de variacin (incremento) Se ve que el segundo ao es 125% del primero y el tercero 140% del segundo ao. Luego:

x g = 1.25 *1.40 = 1.323


o la tasa promedio de crecimiento es de 32.3% Si elevamos al cuadrado ambos miembros obtenemos:

1.25 *1.40 = (1.323 ) 2 1.75 = (1 + 0.323 ) 2


Es decir P2 = 1.75, P0 = 1, r = 0.323. Entonces la ecuacin anterior se puede escribir como P2 = P0 (1 + r ) 2 que es la conocida formula de inters compuesto. Esta formula se puede generalizar a n aos Pn = P0 (1 + r ) n donde P0 es el capital inicial Pn es el inters compuesto despus de n aos y r es la tasa promedio de variacin.

Mediana: La mediana es el valor central de la variable, despus que se ha ordenado en orden creciente o decreciente, es el valor que divide en dos partes la muestra. Para calcular la mediana debemos tener en cuenta si la variable cuantitativa est sin agrupar o si est agrupada, si es discreta con muchos datos y rango pequeo o discreta o continua tabulada en intervalos. Clculo de la mediana en el caso discreto no agrupado: Si el conjunto de observaciones los denotamos por x1,...,xn y al conjunto de observaciones ordenadas las denotamos por x(1) ,... ,x(n). Se define la posicin de la mediana como:

s = Pos ( Med ) =

n +1 2

Si s es un entero el valor de la mediana estado por

Med = xs
Si s no es un entero, entonces se determina un entero i tal que i<s<i + 1. Luego el valor de la mediana es:

Med =

x( i ) + x( i 1) 2

Ejemplo 7 n par n Impar 1,4,6,7,8,9,12,16,20,24,25,27 1,4,6,7,8,9,12,16,20,24,25,27, 30 n=12 n=13 Trminos Centrales el 6 y 7 Trmino Central el 7 , 12 9 y 12 Me= (9+12)/2= Me=12 Clculo de la mediana para datos agrupados: Si la variable est agrupada, la tabla estar en intervalos, por lo que se calcula de la siguiente forma:

n N i l 2 Med = li 1 + * ai ni
Donde: li-1 : lmite inferior de la clase de la mediana n : nmero de observaciones Ni-1: frecuencia absoluta de la clase de la mediana ni : frecuencia absoluta del intervalo mediano ai : amplitud del intervalo de la clase de la mediana

La moda La moda es el valor de mayor frecuencia absoluta, la que ms se repite, es la nica medida de centralizacin que tiene sentido estudiar en una variable cualitativa, pues no precisa la realizacin de ningn clculo. Por su propia definicin, la moda no es nica. Pues puede haber dos o ms valores de la variable que tengan la misma frecuencia siendo esta mxima. En cuyo caso tendremos una distribucin bimodal o polimodal segn el caso. Ejemplo 7. Determinar la mediana y la moda del N de personas que trabajan en una casa del ejemplo 3.

s = Pos (
y la moda es 2

50 + 1 ) = 25.5 2

Med =

x( 25) + x( 26 ) 2

2+2 =2 2

Relacin entre media, mediana y moda. En el caso de distribuciones unimodales, la mediana est con frecuencia comprendida entre la media y la moda (incluso ms cerca de la media) En las distribuciones que presentan valores extremos, es ms aconsejable el uso de la mediana. Sin embargo en estudios relacionados con propsitos estadsticos y de inferencia suele ser ms apta la media.
Principales Caractersticas de la Moda, Mediana y Media

Moda

Mediana

Media

1 2 3

5 6 7 8

Es el valor del punto medio de los datos Es el valor mas frecuente en a distribucin. Es ordenados, tal que la mitad de los datos el valor promedio de todas las Es el punto mas alto en la funcin. estn por arriba y la otra por debajo de observaciones ella. Su valor es establecido por laa frecuencia valor de la mediana es fijado o por El La suma algebraica de sus predominante, no por r los valores en la su u posicin en la seleccin, y no desviaciones es cero. distribucin. refleja valores individuales. Una distribucin puede tener mas de 2 modas, pero noo existe moda en una Cada seleccin tiene solo una mediana.Una muestra tiene solo una media. distribucin rectangular. Pueden ser manipuladas No puede ser manipulada No puede ser manipulada algebraicamente. algebraicamente. Medias de algebraicamente. Modas de subgrupos no pueden ser subgrupos pueden ser combinadas Medianas de subgrupos no pueden ser ponderadas o combinadas. cuando son ponderadas ponderadas o combinadas. apropiadamente. Es estable en cuanto a que estable en cuanto a que Es Es inestable, puede ser influenciada en procedimientos para agrupar no afecta procedimientos para agrupar no afecta el proceso de agrupacin. su apreciacin. su apreciacin. Podra ser calculada igualmente cuando algn valor individual es La moda no refleja el grado de modalidad. No es aplicable para datos cualitativos. desconocido, si se posee la suma de los valores y el tamao de la muestra. No puede ser calculado de una tabla Puede ser calculada cuando los extremos de Puede ser calculado cuando los valores de frecuencia cuando sus valores los valores de los grupos son abiertos. extremos son abiertos. extremos son abiertos. Valores deben ser ordenados y Los valores no necesitan ser Valores deben ser ordenados para su clculo. agrupados para su clculo. ordenados para su clculo.

Cuantiles Como sabemos, la mediana es un valor del recorrido de los datos que particiona a la distribucin de frecuencias en dos partes, cada una conteniendo el 50% del total de la distribucin. Podemos realizar una particin mayor de la distribucin de frecuencias dividindola en 4, 10 100 partes. Llamamos a estas particiones cuantiles y segn el nmero de divisiones obtenemos cuartiles, deciles o percentiles. Si los datos no estn agrupados al igual que en la mediana se debe ordenar el conjunto de datos y determinar primero la posicin para posteriormente determinar el valor.

s = Pos ( Pk ) = si

k (n + 1) si s entero Pk = x( s ) 100 s no es un entero s = t , r Pk = xt + 0, r * ( xt +1 + xt )

Si los datos estn agrupados de determina mediante la formula:

n*k N i 1 100 Pk = li 1 + * ai ni
Por su propia naturaleza, el percentil puede estar situado en cualquier lugar de la distribucin, por lo que no se puede considerar como una medida de tendencia central. Los cuartiles, Qi, son un caso particular de los percentiles. Hay 3, y se define como:

Q1 = P25,

Q2 = P50= Med

Q3 = P75

De forma anloga se definen los deciles como los valores de la variable que dividen a las observaciones en 10 grupos de igual tamao. Ms precisamente, definamos D1, D2,...,D9 como:

Di = P10*i
Los percentiles (que incluyen a la mediana, cuartiles y deciles) tambin son denominados estadsticos de posicin)

Medidas de variabilidad o dispersin. Los estadsticos de tendencias central o posicin nos indican donde se sita un conjunto de observaciones. Los de variabilidad o dispersin nos indican si esas observaciones o valores estn prximas entre si o por el contrario estn o muy dispersas. Una media razonable de la variabilidad podra ser el recorrido o rango, que se obtiene restando el valor ms bajo de un conjunto de observaciones del valor ms alto.

r = xmx - xmin
Es fcil de calcular y sus unidades son las mismas que las de la variable, aunque posee varios inconvenientes: No utiliza todas las observaciones (slo dos de ellas) Se puede ver muy afectada por alguna observacin extrema; El rango aumenta con el nmero de observaciones, o bien se queda igual. En cualquier caso nunca disminuye. Ahora, veremos medidas de dispersin mejores que la anterior. Estas se determinan en funcin de la distancia entre las observaciones y algn estadsticos de tendencia central. Desviacin media, DM Se define la desviacin media como la media de las diferencias en valor absoluto de los valores de la variable a la media, es decir, si tenemos un conjunto de n observaciones, x1,...,xn entonces:

DM =

| x x | si los datos no estn agrupados


i =1 i

Si los datos estn agrupados en una tabla de frecuencias es ms sencillo usar la relacin

DM =

| x x | n
i =1 i

si los datos estn agrupados

Varianza y desviacin estndar La varianza, S2, se define como la media de las diferencias cuadrticas de n observaciones con respecto a su media aritmtica, es decir:

V (X ) = S 2 =

(x x)
i =1 i

si los datos no estn agrupados.

V (X ) = S 2 =

(x x) n
2 i =1 i

si los datos estn agrupados

Una frmula equivalentes de clculo es:

V (X ) = S 2 =
y

x nx
2 i =1 i

si los datos no estn agrupados

V (X ) = S 2 =

n x nx
i =1 i i

si los datos estn agrupados

La varianza no tiene la misma magnitud que las observaciones (ej. Si las observaciones se miden en metros, la varianza lo hace en metros cuadrados). Si queremos que la medida de dispersin sea de la misma dimensionalidad que las observaciones bastar con tomar su raz cuadrada, Por ello se define la desviacin estndar o tpica, como

S = S2
La desviacin intercuartlica se define como:

RIQ = Q3 Q1
Caractersticas Principales de la Desviacin Cuartl, la Media de Desviacin Absoluta y la Desviacin Estndar
La Desviacin intercuatlica Desviacin media La Desviacin Estndar La Desviacin Estndar es normalmente mas til y mejor adaptada a un anlisis mas profundos que lo que es desviacin media. La desviacin intercuatlica es La Desviacin media tiene la fcil de calcular y entender. ventaja de dar igual peso a la Sin embargo, esta es inconsisdesviacin de cada valor con tente si existen brechas entre respecto a la media o la los datos alrededor de los cuartiles. mediana.

Es una medida de dispersin Es ms adaptable como estimador de Solo depende de dos valores, los ms sensitiva que cualquiera la dispersin de la poblacin que cuales incluyen la mitad central de de las descritas anteriormente, cualquier otra medicin, haciendo que los mismos. y normalmente tiene errores de la distribucin sea normal. muestreo ms pequeos. Es ms fcil de calcular y Es normalmente superior al rango entender, adems es menos como una medida cruda de sensible que la desviacin dispersin. estndar a valores extremos. Es la ms amplia medida de dispersin usada, y la ms fcil de manejar algebraicamente.

Esta podra ser determinada en unaDesafortunadamente, es muy distribucin abierta en los extremos,difcil de manejar En comparacin con los dems, esta o en una en la cual los datos algebraicamente, dado que el es mas difcil de calcular y de pueden ser seleccionados pero no signo negativo debe ser entender. medidos cuantitativamente. ignorado cuando se calcula. Es muy til en distribuciones muy sesgadas, o en aquellas en las cuales otras medidas de dispersin serian deformadas por valores extremos. Su aplicacin principal es la Es normalmente afectada por valores precisa eleccin de modelos en extremos, los cuales podran ocasionar tcnicas de predicciones el sesgamiento de los datos. comparativas.

Coeficiente de Variacin: El coeficiente de variacin (CV) es la desviacin relativa absoluta con respecto al tamao de la media, expresado en porcentaje:

CV =

S *100% x

El CV es independiente de las unidades de medida. En la estimacin de un parmetro, cuando su CV es menos del 10%, la estimacin se asume aceptable. El coeficiente de variacin se utiliza para representar la relacin de la desviacin estndar hacia la media, diciendo cuan representativa es la media de los nmeros de los cuales fue calculada. Esta expresa la desviacin estndar como porcentaje de la media; es decir, refleja la variacin de una distribucin con respecto a la media. Generalmente el coeficiente de variacin nos sirve para comparar la variacin de dos o ms conjuntos de datos Ejemplo 8.- Determinar las medidas de dispersin del ejemplo 4, ingresos de los ejecutivos para datos sin agrupar y agrupados.
Medidas de dispersin

Rango o recorrido Desviacin media Varianza Desviacin estndar

Datos no agrupados 58 12,2783 217,0475 14,7325

Datos agrupados 90 12,4056 226,9722 15,0656

Medidas de forma: Grado de concentracin Las medidas de forma permiten conocer que forma tiene la curva que representa la serie de datos de la muestra. En concreto, podemos estudiar las siguientes caractersticas de la curva: a) Concentracin: mide si los valores de la variable estn ms o menos uniformemente repartidos a lo largo de la muestra. b) Asimetra: mide si la curva tiene una forma simtrica, es decir, si respecto al centro de la misma (centro de simetra) los segmentos de curva que quedan a derecha e izquierda son similares. c) Curtosis: mide si los valores de la distribucin estn ms o menos concentrados alrededor de los valores medios de la muestra. a) Concentracin Para medir el nivel de concentracin de una distribucin de frecuencia se pueden utilizar distintos indicadores, entre ellos el ndice de Gini. Este ndice se calcula aplicando la siguiente frmula:
n 1

IG =

i =1

( pi qi )
n 1 i =1

pi

En donde pi mide el porcentaje de individuos de la muestra que presentan un valor igual o inferior al de xi.

pi =

n1 + n2 + ... + ni * 100 n

Mientras que qi se calcula aplicando la siguiente frmula:

qi =

x1n1 + x2 n2 + ... + xi ni
xjnj
j =1 n

* 100

El Indice Gini (IG) puede tomar valores entre 0 y 1: IG = 0 : concentracin mnima. La muestra est unifomemente repartida a lo largo de todo su rango. IG = 1 : concentracin mxima. Un slo valor de la muestra acumula el 100% de los resultados.

Ejemplo: vamos a calcular el Indice Gini de una serie de datos con los sueldos de los empleados de una empresa (millones pesos). Sueldos (Millones) x 3,5 4,5 6,0 8,0 10,0 15,0 20,0 Empleados absolutas) Simple ni 10 12 8 5 3 1 1 (Frecuencias Acumulada Ni 10 22 30 35 38 39 40 Frecuencias relativas Simple hi 25,0% 30,0% 20,0% 12,5% 7,5% 2,5% 2,5% Acumulada Hi 25,0% 55,0% 75,0% 87,5% 95,0% 97,5% 100,0%

Calculamos los valores que necesitamos para aplicar la frmula del Indice de Gini Xi 3,5 4,5 6,0 8,0 10,0 15,0 25,0 ni 10 12 8 5 3 1 1 Ni 10 22 30 35 38 39 40 pi 25,0 55,0 75,0 87,5 95,0 97,5 100,0 435 Xi * ni 35,0 54,0 48,0 40,0 30,0 15,0 25,0 247 Xi * ni 35,0 89,0 137,0 177,0 207,0 222,0 247,0 qi 14,17 36,03 55.47 71,66 83.8 89,88 100,0 pi - qi 10,83 18,97 19,53 15,84 11,19 7,62 0 83,99

Por lo tanto: IG = 83,99 / 435,0 = 0,19 Un Indice Gini de 0,19 indica que la muestra est bastante uniformemente repartida, es decir, su nivel de concentracin no es excesivamente alto.

Ejemplo: Ahora vamos a analizar nuevamente la muestra anterior, pero considerando que hay ms personal de la empresa que cobra el sueldo mximo, lo que conlleva mayor concentracin de renta en unas pocas personas. Sueldos Empleados (Frecuencias Frecuencias relativas

(Millones) X 3,5 N 6,0 8,0 10,0 15,0 20,0

absolutas) Simple n 10 10 8 5 3 0 4

Acumulada N 10 20 28 33 36 36 40

Simple f 25,0% 25,0% 20,0% 12,5% 7,5% 0,0% 10,0%

Acumulada F 25,0% 50,0% 70,0% 82,5% 90,0% 90,0% 100,0%

En este caso obtendramos los siguientes datos: Xi 3,5 4,5 6,0 8,0 10,0 15,0 25,0 ni 10 10 8 5 3 0 4 Ni 10 20 28 33 36 36 40 pi 25,0 50,0 70,0 82,5 90,0 90,0 100,0 407,5 Xi * ni 35 45 48 40 30 0 100 x Xi * ni 35 80 128 168 198 198 298 qi 11,7 26,8 43,0 56,4 66,4 66,4 100,0 pi - qi 13,26 23,15 27,05 26,12 23,56 23,56 0,00 136,69

El Indice Gini sera: IG = 136,69 / 407,5 = 0,34 El Indice Gini se ha elevado considerablemente, reflejando la mayor concentracin de rentas que hemos comentado. Asimetra y apuntamiento Sabemos cmo calcular valores alrededor de los cuales se distribuyen las observaciones de una variable sobre una muestra y sabemos cmo calcular la dispersin que ofrecen los mismos con respecto al valor de central. Nos proponemos dar un paso ms all en el anlisis de la variable. En primer lugar, nos vamos a plantear el saber si los datos se distribuyen de forma simtrica con respecto a un valor central, o si bien la grfica que representa la distribucin de frecuencias es de una forma diferente del lado derecho que del lado izquierdo. Si la simetra ha sido determinada, podemos preguntarnos si la curva a cierta distribucin de frecuencias que consideramos normal.

Distribucin Simtrica
7 6 5 4 3 2 1 0 1 2 3 4 5 6 7

Estadsticos de asimetra Para saber si una distribucin de frecuencias es simtrica, hay que precisar con respecto a qu. Un buen candidato es la mediana, ya que para variables continuas, divide al histograma de frecuencias en dos partes de igual rea. Podemos basarnos en ella para, de forma natural, decir que una distribucin de frecuencias es simtrica si el lado derecho de la grfica (a partir de la mediana) es la imagen por un espejo del lado izquierdo. Distribuciones de frecuencias simtricas y asimtricas Cuando la variable es discreta, decimos que es simtrica, si lo es con respecto a la media Se podra pensar que definir la simetra usando la media para variables continuas y usando la media para variables discretas es una eleccin arbitraria. En realidad esto no es as, pues si una variable es continua, coinciden ambos criterios de simetra (con respecto a la media y a la mediana). Es ms se tiene que media y mediana coinciden para distribuciones continuas simtricas. Por otro lado, En el caso de variables discretas, la distribucin es simtrica si el lado derecho del diagrama se obtiene por imagen especular desde la media. En este caso coincide la media con la mediana si el nmero de observaciones es impar. Si la variable es continua simtrica y unimodal, coinciden la media, la mediana y la moda.

Dentro de los tipos de asimetra, vamos a destacar los dos fundamentales:

Asimetra positiva: Si las frecuencias ms altas se encuentran en el lado izquierdo de la media, mientras que en derecho hay frecuencias ms pequeas (cola).

Distribucin Asimtrica Positiva 12 10 8 6 4 2 0 1 2 3 4 5 6 7

Asimetra negativa: Cuando la cola est en el lado izquierdo.


Distribucin Asimtrica Negativa
12 10 8 6 4 2 0 1 2 3 4 5 6 7

Cuando realizamos un estudio descriptivo es altamente improbable que la distribucin de frecuencias sea totalmente simtrica. En la prctica diremos que la distribucin de frecuencias es simtrica si lo es de un modo aproximado. Por otro lado, an observando cuidadosamente la grfica, podemos no ver claro de qu lado estn las frecuencias ms altas. Conviene definir entonces unos estadsticos que ayuden a interpretar la asimetra, a los que llamaremos ndices de asimetra, y que denotaremos mediante As. Vamos a definir a continuacin algunos de los ndices de asimetra ms usuales como son el ndice basado en los tres cuartiles, el momento de tercer orden y la distancia entre la moda y la media o la media y la mediana. Indice basado en los tres cuartiles (Yule-Bowley) Si una distribucin es simtrica, es claro que deben haber tantas observaciones entre la que deja por debajo de s las tres cuartas partes de la distribucin y la mediana, como entre la mediana y la que deja por debajo de s un cuarto de todas las observaciones. De forma abreviada esto es, Q 2 Q 2 = Q 2 Q1

Una forma para saber si una distribucin de frecuencias es asimtrica es ver si Q 3 Q 2 > Q 2 Q1

y si es asimtrica negativa, se tendr Q 3 Q 2 < Q 2 Q1 Para quitar la dimensionalidad al problema, utilizamos como ndice de asimetra la cantidad:

As =

(Q 3 Q 2 ) (Q 2 Q1 ) Q 3 Q1

El nmero obtenido, es invariante ante cambios de origen de referencia y de escala. Indice basado en el momento central de tercer orden

1 n ( xi x ) 3 n As = i =1 3 S
que para datos organizados en una tabla sera 1 n ( xi x ) n i =1 As = S3 Apoyndonos en este ndice, diremos que hay asimetra positiva si As > 0 , y que la asimetra es negativa si As < 0 y si As = 0 la distribucin es simtrica. Ejemplo 21.- Las edades de un grupo de personas estn dadas en la tabla siguiente: Intervalos 79 9 11 11 12 12 13 13 14 14 15 15 16 17 -- 19 ni 4 18 14 27 42 31 20 1

Determinar la variabilidad de la edad mediante los estadsticos varianza, desviacin estndar, y rango intercuartlico. Estudie la simetra de la variable. En las distribuciones sesgadas negativamente siempre la media est a la izquierda de la mediana y la moda a la derecha de ella. En las distribuciones sesgadas

positivamente la moda est a la izquierda de la mediana y la media a la derecha de la mediana. Curva bimodal (simtrica o asimtrica por estratos):
0.5 0.4 0.3 0.2 0.1 0 -3 2

Estadsticos de apuntamiento. Se define el coeficiente de aplastamiento de Fisher o coeficiente de curtosis como:

K=

m4 3 m22

Donde m4 es el momento emprico de cuarto orden. Es ste un coeficiente adimensional, invariante ante cambios de escala y de origen. Sirve para medir si una distribucin de frecuencias es muy apuntada o no. Para decir si la distribucin es larga y estrecha, hay que tener un patrn de referencia. El patrn de referencia es la distribucin normal gaussiana (que veremos ms adelante) para la que se tiene m4
2 m2

= 3 K = 0

De este modo, atendiendo, se clasifican las distribuciones de frecuencias en: Leptocrtica: cuando, K>0, o sea, si la distribucin de frecuencias es ms apuntada que la normal: Mesocrtica: cuando K=0, es decir, cuando la distribucin de frecuencias es tan apuntada como lo normal; Platicrtica: cuando K<0, o sea, si la distirbucin de frecuencias es menos apuntada que la normal

Ejemplo 9.- Las medidas descriptivas del ejemplo 3, ingreso de los ejecutivos para los datos no agrupados son: (obtenidos utilizando Excel)
Medidas descriptivas de la variable Ingreso de los Ejecutivos

Media Mediana Moda Desviacin estndar

62,05 65 69 14,8569

Rango Mnimo Mximo Suma

58 31 89 3723

Varianza de la muestra Curtosis Coeficiente de asimetra

220,7263 -0,727577 -0,451824

Cuenta

60

Se aprecia que el ingreso promedio de los ejecutivos es de US$ 625000, con una desviacin estndar de US$ 14857 El valor de la mediana es de US$ 65000 es decir el 50% de los ejecutivos tienen un ingreso de a lo mas este valor y el otro 50% tienen un ingreso mayor a este valor. El ingreso mas frecuente es de US$ 69000. Como el valor de la curtosis es menor que 3 la curva es leptocrtica. El coeficiente de asimetra es negativo la curva o histograma es asimtrico a izquerda lo que significa que hay una mayor variacin de los ingresos en los entre los ejecutivos de menor ingreso.

Cmo Construir un BoxPlot Un BoxPlot es un grfico que tiene muchas caractersticas. Incluye la presencia de posibles outliers. Muestra el rango de los datos. Muestra una medida de dispersin tal como el cuartl superior, cuartl inferior y los rangos intercuartiles (RIC) de un conjunto de datos, as como tambin a la mediana como medida central ubicacin, el cual es til para comparar grupos de datos. Tambin indica acerca de la simetra o de la asimetra de la distribucin. La razn principal de utilizar los boxplots es porque ofrecen mucha informacin de una manera compacta. Pasos para Construir un Boxplot: 1.- Calcular los 3 cuartiles (Q1, Q2, y Q3). La porcin central de la distribucin que se encuentre entre Q1 y Q3 se representa por una caja (no interesa el ancho de ella). Dentro de esta caja se ubica el valor de la mediana (Q2). 2.- Calcular el recorrido intercuartlico (Q). 3.- Calcular las barreras internas BI1 y BI2 en la forma: BI1 = Q1 1.5 Q BI2 = Q3 + 1.5 Q 4.- Calcular las barreras externas BE1 y BE2 en la forma: BE1 = Q1 3 Q BE2 = Q3 + 3 Q 5.- Identifique los puntos adyacentes Se llaman puntos adyacentes al mnimo y mximo dato que se encuentran dentro de las barreras internas. Desde los extremos de la caja se trazan lneas hasta los respectivos valores adyacentes. A estas lneas se les llama antenas o bigotes. 6.- Identificar los puntos atpicos y extremos: Se llaman puntos atpicos o outliers a aquellos datos que se encuentran fuera de las barreras internas y dentro de las barreras externas. Se llaman puntos extremos a aquellos puntos ubicados fuera de las barreras externas. Un punto atpico o extremo puede deberse, por ejemplo, a una mala lectura, mal registro, causa fortuita, etc. Este tipo de datos no puede eliminarse inmediatamente sin un anlisis preliminar de las causas que lo originan. A travs de un grfico caja podemos identificar el tipo de asimetra de una distribucin de frecuencias unimodal de la siguiente manera: i) ii) Si la posicin de la mediana se encuentra en la mitad de la caja y las antenas tiene la misma longitud, la distribucin es simtrica. Sil a posicin de la mediana se encuentra ubicada ms cerca del primer cuartil y la antena superior es de mayor longitud que la antena inferior, la distribucin presenta sesgo positivo.

iii)

Si la posicin de la mediana se encuentra ubicada ms cerca del tercer cuartil y la antena superior es de menor longitud que la antena inferior, la distribucin presenta sesgo negativo.

Ejemplo 9.- El grafico de caja para el ejemplo 3 (ingreso de los ejecutivos) es:
B o x P lo t In g r e s o s E je c u tiv o s 110 100 90 80 70 60 50 40 30 20 I n g r e s o E je c u tiv o s
M e d ia n a = 6 5 Q 1 = 51 Q 3 = 74 N o h a y p u n t o s o u t l ie r

EJERCICIOS
1. Para cada uno de los ejercicios siguientes construir (a) una Tabla de frecuencias. I La tabla 1. da los pesos, en libras, de 150 adultos. II La tabla 2 da la altura, en pies, de 100 rboles de una finca III En un experimento de sicologa, se pide a varios individuos que memoricen cierta secuencia de palabras. La tabla 3 da los tiempos, en segundos que necesitaron los participantes del experimento para la memorizacin. TABLA 1.158 165 179 177 158 180 175 168 171 176 178 174 189 171 164 185 180 172 171 181 165 178 181 177 189 181 177 179 188 190 179 175 160 176 178 163 166 178 165 172 9 17 8 15 9 19 7 57 88 106 99 112 135 99 168 176 176 176 161 182 184 176 179 165 5 17 5 16 6 21 8 66 61 122 50 78 78 159 174 171 178 183 177 189 176 184 193 9 24 5 21 5 28 13 30 108 41 79 118 73 179 173 179 169 175 165 175 186 186 162 184 160 176 171 176 183 171 187 176 191 163 186 171 186 180 176 170 168 179 167 175 187 177 181 175 167 184 174 178 184 177 189 166 177 176 173 177 178 180 172 168 179 179 182 175 163 170 162 168 188 188 176 188 169 179 175 178 186 181 185 180 186 173 187 173 188 174 177 178 183 170 170 168 181 165 180 175 176 184 178

TABLA 2.2 2 13 11 4 2 10 10 3 1 12 13 3 5 TABLA 3.100 107 89 128 107 109 75 105 126 100 98 110 119 76 34 100 32 50 102 93 93

13 1 14 1 13 3 12 79 79 70 43 135 80

10 2 13 4 13 6 16 84 37 96 90 110 125

16 9 16 9 16 6 16 118 93 98 114 64 88

19 9 16 6 20 5 24 77 116 117 53 62 142

20 5 24 9 26 13 26 135 45 97 123 107 103

3 14 4 11 1 14

2 11 4 13 1 18

8 17 8 15 8 15

5 15 7 22 8 21

8 23 6 28 8 29

95 57 99 100 127 149

130 112 62 69 102 90

138 73 88 87 129 145

52 129 85 64 88 96

126 46 149 85 123 146

Para cada uno de los siguientes ejercicios calcular la media de la muestra, la mediana, la moda, el rango, la varianza y la desviacin tpica. 2. Las cantidades de cido ascrbico (100 g/ml) en diez soluciones son: 1.0, 1.5, 3.0, 2.5, 3.5, 3.6, 4.0, 2.5, 6.0, 5.0 3. Los siguientes datos muestran el consumo diario de caloras de 11 jvenes. Los datos originales se dividieron por 1000 y se redondearon a la dcima ms prxima.

2.5, 2.3, 2.4, 2.3, 2.3, 2.3, 2.7, 2.5, 2.6, 2.6, 2.7 4. El aumento de peso (en libras) de diez terneros a los que se les suministr una dieta suplementaria fue: 121, 101, 110, 108, 107, 95, 89, 120, 109, 117 5. El nmero de das en que faltaron al colegio 15 estudiantes de primer ao durante el ao escolar son: 1, 8, 2, 2, 3, 9, 2, 3, 5, 2, 4, 7, 9, 8, 5 6. Las distancias (medidas en cuadras) a que viven 10 empleados de una empresa respecto de su lugar de trabajo son: 11, 20, 12, 11, 14, 8, 16, 7, 13 7. A once personas que participaron en un experimento de sicologa se les pidi que memorizaran una lista de diez palabras. Ms tarde se les solicit que recordaran el mayor nmero de ellas. Los resultados fueron los siguientes: 6, 4, 8, 9, 10, 6, 5, 8, 9, 4, 8 8. En una fbrica industrial se contaron durante diez horas sucesivas los artculos defectuosos que se producan cada hora. Los resultados fueron los siguientes: 5, 5, 6, 5, 10, 5, 4, 4, 3 9. Los siguientes son los nmeros de nios por familia correspondientes a 15 familias que viven en una urbanizacin de renta baja: 2, 5, 7, 6, 5, 3, 3, 4, 4, 8, 4, 2, 6, 4, 7 10. A doce empleados de una compaa de seguros se les hicieron una pruebas para medir su satisfaccin en el trabajo. He aqu los puntajes: 3, 8, 2, 6, 8, 3, 3, 9, 4, 4, 3, 7 11. Los niveles de glucosa, medidos en ayunas de diez nios son: 71, 62, 75, 71, 55, 71, 63, 50, 62, 60 12. Una muestra de diez empresas de acarreos indic el volumen de actividades durante el ltimo ao, medido en miles de toneladas transportadas. Los resultados fueron: 9, 15, 11, 17, 16, 16, 10, 18, 16, 10 13. La poblacin de 180 alumnos de primer ao de un colegio se representa en la Tabla 4, que indica el nmero de horas que gast viendo televisin cada uno de

ellos durante la semana anterior a la entrevista. Sacar de esa poblacin una muestra aleatoria simple de tamao diez y calcular la media, la mediana, la moda, el rango, la varianza y la desviacin tpica. Estudi an 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 N horas 23 17 23 18 21 22 18 20 24 22 19 18 21 20 20 17 18 20 18 21 17 20 17 20 23 18 18 21 19 19 15 21 25 22 24 21 Estudi an 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 N horas 23 20 23 20 19 21 17 22 22 20 19 23 20 19 25 18 22 19 21 20 24 20 19 20 23 18 25 21 20 17 25 20 25 21 18 22 Estudi an 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 N horas 17 23 22 18 20 18 22 20 21 18 24 19 21 22 19 23 19 21 17 24 21 17 23 19 22 17 20 16 17 17 15 21 23 16 18 18 Estudi an 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 N horas 21 17 19 18 20 16 19 17 25 19 18 22 19 24 20 17 21 15 23 17 17 20 24 16 17 22 16 21 19 17 16 20 16 18 16 22 Estudi an 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 N horas 18 19 17 21 16 18 17 21 20 15 19 22 25 20 19 21 18 20 22 19 20 16 19 21 24 20 19 21 23 19 21 20 23 25 18 24

14. La tabla 5 muestra los datos sobre la velocidad de escribir a mquina (medidas en palabras por minuto) de 100 secretarias experimentas. Con base en estos datos, preparar una distribucin de frecuencia, una distribucin de frecuencia acumulada, una distribucin de frecuencia relativa, una distribucin de frecuencia relativa acumulada, un histograma y un polgono de frecuencia. Utilizar las

frmulas de datos agrupados para calcular la media, la mediana, la varianza y la desviacin tpica. 40 49 65 30 32 36 31 54 31 37 41 35 97 32 75 40 36 67 34 30 39 84 88 48 68 34 81 44 76 54 61 51 39 38 37 42 51 42 52 30 47 52 35 63 50 53 66 50 41 50 43 55 73 36 40 39 44 60 50 65 93 38 41 31 52 46 33 40 56 50 32 38 39 35 36 44 38 44 45 38 71 42 58 36 38 45 61 47 48 43 62 48 53 41 51 36 55 45 45 55

15. Se toma la altura de 80 nios, obtenindose una altura promedio de 1,45 cm. y una varianza de 2.4 cm2. Posteriormente se verific que la huincha que se utiliz para medir tenan un error 5 centmetros (menos). Rectifique los estadsticos correspondientes. 16. En el pas A el ingreso per cpita es de US$2000, y su S=US$500. En el pas B el ingreso per cpita es de es el mismo con una desviacin estndar de US$250 Cul pas es ms uniforme en la distribucin de ingreso? 17. El dimetro craneal de (Y) de 50 recin nacidos se construy en una tabla de frecuencias con 4 intervalos de igual amplitud. Calcular la desviacin estndar sabiendo que: y2 = 32 cm.; n1 = 4; 18. N2 = 18; n3 = 25; y = 38.8

El coeficiente de variacin de los salarios de 200 obreros de una empresa forestal es 55%. Despus de reajustar los salarios en $66000 el coeficiente es 50%. Determine el sueldo promedio inicial y la desviacin estndar. de acuerdo al

19. Los vendedores de una casa comercial reciben comisiones volumen de ventas en miles de pesos. Volumen en miles de Numero de vendedores pesos 5-15 4 15-25 20 25-45 48 45-75 23 a) b) c) d) e)

Determine el volumen medio. Determine el volumen mediano de las ventas Determine el volumen modal Determine el rango intercuartlico Determine que porcentaje de vendedores tiene un volumen de ventas entre 20 y 40 en miles de pesos. f) Determine el 20% de los mayores volmenes de ventas

20. La compaa distribuidora de electricidad realizo un estudio en dos comunas de la regin A y B respecto al consumo mensual de energa elctrica (en KW) para un grupo de clientes. Los datos obtenidos se muestran en el siguiente cuadro: COMUNA A Consumo 140-150 Clientes 150 COMUNA B Consumo 125-135 Clientes 150 150-160 250 135-145 270 160-170 220 145-155 180 170-180 180 155-165 485 180-190 280 165-175 265

a) En cual de las comunas se observa un consumo medio mayor? b) Cul es el consumo mediano que se observa en la comuna A? c) La empresa seala que todo cliente que se ubique por sobre el noveno decil de su distribucin tendr un aumento en el precio de del Kw. Determine si un cliente de la comuna A con un consumo de 178 Kw se le aplicara esta medida. d) Para los clientes de la comuna B qu porcentaje presenta un consumo superior a 152 kw? e) Determine el valor de la desviacin estndar del consumo para los clientes de cada una de las comunas. 21. Debido a la crisis econmica que atraviesa el pas, el gerente de una empresa se ha dado cuenta que ser necesario bajar los sueldos de sus empleados, que en la actualidad son los siguientes. (en miles de pesos) Sueldos 250-350 350-450 450-550 550-650 650-750 Empleados 4 2 5 5 3

La medida a aplicar se plantea en reducir en un 34% los sueldos ubicados dentro del 20% de los sueldos ms altos. a) A partir de que sueldo se aplicar esta medida? b) Qu sueldo quedar ganando un empleado que actualmente se ubica exactamente en el percentil 92? c) Determine el actual salario medio. d) Determine el actual salario modal. 22. La tabla siguiente muestra los sueldos de los profesores de un determinado colegio particulas Salario en miles N de de $ profesionales 400-500 15 500-600 22

600-700 700-800 800-900 a) b) c) d) e)

51 27 10

Calcule el sueldo promedio de estos profesores. Cuntos trabajadores ganan menos de 600 mil pesos Cuntos trabajadores ganan por sobre los 600 mil pesos De los 120 trabajadores cuntos ganan entre 500 mil y 800 mil pesos. El colegio ofrece dos tipos de reajustes : reajustar en un 15 % + 20000 reajustar en un 11% + 32000

Determine, segn en sueldo, a que empleados les conviene el primer y quienes les conviene el segundo reajuste.

Вам также может понравиться